更新时间:2021-11-29 18:44:33
在印前服务器Arxiv.org上发表的一篇论文中,Alphabet公司DeepMind的科学家提出了一个新的框架,可以学习各种游戏中对玩家的近似最佳反应。他们声称,在许多游戏中,如国际象棋、围棋和国际象棋,它总是在“最坏的对手”中表现良好(即表现不佳,但至少遵守规则并实际完成游戏的玩家)。德州扑克。
DeepMind首席执行官戴密斯哈萨比斯经常断言,游戏是开发算法的方便试验场,这些算法可以转化为现实世界来解决难题。这样,像这个新框架这样的创新可以为人工智能(AGI)奠定基础,人工智能是AI的圣杯——决策AI系统不仅可以自动完成普通的重复性企业任务,如数据输入,还可以自动完成关于其环境的原因。这是OpenAI等其他研究机构的长期目标。
玩家的表现水平叫做可用性。计算这种可用性通常是计算密集型的,因为玩家可能会采取很多行动。例如,德州扑克的一个变种——一对一限定德州扑克——大约有1014个决策点,而Go大约有10170个决策点。解决这个问题的一个方法是制定一个策略,可以使用强化学习(一种通过系统奖励来鼓励软件代理实现目标的AI训练技术)来通过使用最佳学习来评估要评估的玩家。
DeepMind研究人员提出的框架,他们称之为近似最优响应信息状态蒙特卡罗树搜索(ABR IS-MCTS),基于信息状态近似精确最优响应。框架中的参与者遵循一种算法来玩游戏,而学习者从各种游戏结果中获得信息来训练策略。直觉上,ABR IS-MCTS试图学习一种策略,当剥削者被给予对对手策略的无限访问权时,可以创建一种有效的剥削策略。它模拟了如果有人在多年训练后利用对手会发生什么。
研究人员报告称,在涉及200名演员(在4个处理器、8GB RAM的PC上训练)和一名学习者(10个处理器、20GB RAM)的实验中,ABR IS-MCTS在每场比赛中的胜率都超过了50%,在Hex或Go之外的游戏中(如《连接四人》、《突破》)的胜率更是超过了70%。在BBK,经过100万集的训练,它赢得了80%的时间。
合著者说,他们看到了“大量学习”的证据,即当演员的学习步骤受到限制时,即使经过10万次培训,他们的表现也往往会变得更差。然而,他们也注意到,在某些情况下,ABR IS-MCTS相当慢,计算Kuhn扑克(一种简化的两人扑克)中特定形式UniformRandom的可用性平均需要150秒。
未来的工作将包括将这种方法扩展到更复杂的游戏。
网络上iCloud的主启动屏幕也已通过新界面进行了全面改进
男子拍照举报车辆走应急车道交警:相关车辆已被处罚
爱情修炼游戏《舔狗模拟器》:期待与女神开启爱情!
请查看纯色卡片!数10部有漂亮彩色图片的电影
发货错误?英国玩家收到俄罗斯版《远哭6》后无法升级PS5版本
萨尔瓦多以比特币为法定货币 货币无故减少
重金开启传奇福利联盟手机游戏不删档!
玩家对《喋血复仇》单人模式不满意 开发者的反应会有所提升
《电脑装机模拟》白嫖24小时超过400万人!DLC开始推广
《艾尔登法环》魏碑泰达:游戏中不会有跑腿
世界上没有奇迹 印度尼西亚-网上名人宣布与电饭煲结婚
更换高跟鞋乌克兰一家航空公司的空姐将穿运动鞋上班