DeepMind的AI研究游戏玩家以利用其策略中的弱点

2021-11-29 18:44:33 来源：用户：

在印前服务器Arxiv.org上发表的一篇论文中，Alphabet公司DeepMind的科学家提出了一个新的框架，可以学习各种游戏中对玩家的近似最佳反应。他们声称，在许多游戏中，如国际象棋、围棋和国际象棋，它总是在“最坏的对手”中表现良好(即表现不佳，但至少遵守规则并实际完成游戏的玩家)。德州扑克。

DeepMind首席执行官戴密斯哈萨比斯经常断言，游戏是开发算法的方便试验场，这些算法可以转化为现实世界来解决难题。这样，像这个新框架这样的创新可以为人工智能(AGI)奠定基础，人工智能是AI的圣杯——决策AI系统不仅可以自动完成普通的重复性企业任务，如数据输入，还可以自动完成关于其环境的原因。这是OpenAI等其他研究机构的长期目标。

玩家的表现水平叫做可用性。计算这种可用性通常是计算密集型的，因为玩家可能会采取很多行动。例如，德州扑克的一个变种——一对一限定德州扑克——大约有1014个决策点，而Go大约有10170个决策点。解决这个问题的一个方法是制定一个策略，可以使用强化学习(一种通过系统奖励来鼓励软件代理实现目标的AI训练技术)来通过使用最佳学习来评估要评估的玩家。

DeepMind研究人员提出的框架，他们称之为近似最优响应信息状态蒙特卡罗树搜索(ABR IS-MCTS)，基于信息状态近似精确最优响应。框架中的参与者遵循一种算法来玩游戏，而学习者从各种游戏结果中获得信息来训练策略。直觉上，ABR IS-MCTS试图学习一种策略，当剥削者被给予对对手策略的无限访问权时，可以创建一种有效的剥削策略。它模拟了如果有人在多年训练后利用对手会发生什么。

研究人员报告称，在涉及200名演员(在4个处理器、8GB RAM的PC上训练)和一名学习者(10个处理器、20GB RAM)的实验中，ABR IS-MCTS在每场比赛中的胜率都超过了50%，在Hex或Go之外的游戏中(如《连接四人》、《突破》)的胜率更是超过了70%。在BBK，经过100万集的训练，它赢得了80%的时间。

合著者说，他们看到了“大量学习”的证据，即当演员的学习步骤受到限制时，即使经过10万次培训，他们的表现也往往会变得更差。然而，他们也注意到，在某些情况下，ABR IS-MCTS相当慢，计算Kuhn扑克(一种简化的两人扑克)中特定形式UniformRandom的可用性平均需要150秒。

未来的工作将包括将这种方法扩展到更复杂的游戏。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！