环球门户网

DeepMind的AI研究游戏玩家以利用其策略中的弱点

更新时间:2021-11-29 18:44:33

导读 在印前服务器Arxiv org上发表的一篇论文中,Alphabet公司DeepMind的科学家提出了一个新的框架,可以学习各种游戏中对玩家的近似最佳反应。

在印前服务器Arxiv.org上发表的一篇论文中,Alphabet公司DeepMind的科学家提出了一个新的框架,可以学习各种游戏中对玩家的近似最佳反应。他们声称,在许多游戏中,如国际象棋、围棋和国际象棋,它总是在“最坏的对手”中表现良好(即表现不佳,但至少遵守规则并实际完成游戏的玩家)。德州扑克。

DeepMind首席执行官戴密斯哈萨比斯经常断言,游戏是开发算法的方便试验场,这些算法可以转化为现实世界来解决难题。这样,像这个新框架这样的创新可以为人工智能(AGI)奠定基础,人工智能是AI的圣杯——决策AI系统不仅可以自动完成普通的重复性企业任务,如数据输入,还可以自动完成关于其环境的原因。这是OpenAI等其他研究机构的长期目标。

玩家的表现水平叫做可用性。计算这种可用性通常是计算密集型的,因为玩家可能会采取很多行动。例如,德州扑克的一个变种——一对一限定德州扑克——大约有1014个决策点,而Go大约有10170个决策点。解决这个问题的一个方法是制定一个策略,可以使用强化学习(一种通过系统奖励来鼓励软件代理实现目标的AI训练技术)来通过使用最佳学习来评估要评估的玩家。

DeepMind研究人员提出的框架,他们称之为近似最优响应信息状态蒙特卡罗树搜索(ABR IS-MCTS),基于信息状态近似精确最优响应。框架中的参与者遵循一种算法来玩游戏,而学习者从各种游戏结果中获得信息来训练策略。直觉上,ABR IS-MCTS试图学习一种策略,当剥削者被给予对对手策略的无限访问权时,可以创建一种有效的剥削策略。它模拟了如果有人在多年训练后利用对手会发生什么。

研究人员报告称,在涉及200名演员(在4个处理器、8GB RAM的PC上训练)和一名学习者(10个处理器、20GB RAM)的实验中,ABR IS-MCTS在每场比赛中的胜率都超过了50%,在Hex或Go之外的游戏中(如《连接四人》、《突破》)的胜率更是超过了70%。在BBK,经过100万集的训练,它赢得了80%的时间。

合著者说,他们看到了“大量学习”的证据,即当演员的学习步骤受到限制时,即使经过10万次培训,他们的表现也往往会变得更差。然而,他们也注意到,在某些情况下,ABR IS-MCTS相当慢,计算Kuhn扑克(一种简化的两人扑克)中特定形式UniformRandom的可用性平均需要150秒。

未来的工作将包括将这种方法扩展到更复杂的游戏。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。