DeepMind星际争霸机器人领先人类多少?答:191年

神译局 · 2019-11-13
这是1.2亿场对弈,"数百年"的训练成果。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:DeepMind的AlphaStar AI机器人在《星际争霸2》中的表现达到了大师级别,AlphaStar在游戏中每一个种族的欧洲地区排名都是前0.15%。为了达到这种训练成果,AlphaStar与自己对战了200年(加速游戏),才达到目前的水平。鉴于《星际争霸2》在2010年发布,人类与机器之间的竞争存在191年的劣势。本文译自Medium,作者Dave Gershgorn,原标题为" DeepMind’s StarCraft Bot Has a 191-Year Head Start on Humanity",希望对您有所启发。

DeepMind星际争霸机器人领先人类多少?答:191年

根据近期发表在《自然》(Nature)杂志上的一项研究,Alphabet旗下的人工智能研究公司DeepMind已经构建了一个能够击败世界上绝大多数《星际争霸2》玩家的人工智能系统。

DeepMind团队于今年早些时候推出了AlphaStar,这是一款《星际争霸2》游戏机器人,在与顶级电子竞技专业人士的比赛中亮相。DeepMind的研究人员将其机器人AlphaStar引入了一系列盲注游戏,其对手根本不知道它是在与计算机对战。DeepMind部署了三个版本的AlphaStar,每个版本都以略微不同的方式学习这款游戏。AlphaStar的前两个版本足够好,达到了游戏的最高级别——特级大师。经过30场比赛后,AlphaStar在每一个种族的欧洲地区排名都是前0.15%。

《星际争霸2》是一款复杂的电子竞技游戏。每个玩家的任务是发展一支军队,建造建筑来提高他们的进攻、防御或产出能力,最终目标是探索周围环境,找到并摧毁他们的敌人。数以百计的独立单位必须被有效地组织起来,这就是为什么AlphaStar花了超过1.2亿场对弈,以及数百年的加速游戏时间,才征服了《星际争霸2》。

DeepMind星际争霸机器人领先人类多少?答:191年根据DeepMind的说法,AlphaStar在游戏中每采取一步行动都有10的26次方种可能的选择,即每一步都是在100,000,000,000,000,000,000,000,000个潜在选项中进行选择。

《星际争霸2》中的策略通常分为两类:微观和宏观。微观战略是指玩家如何操纵单个单元,而宏观战略则与玩家如何使用资源和升级军队等。对于AlphaStar来说,要想掌握这种游戏玩法,DeepMind不能仅仅依靠系统自身的学习能力,它还需要人类的帮助。

对于这些微观策略,研究人员对AlphaStar进行了训练,让它记录人类之前玩过的游戏,这些游戏是《星际争霸2》(StarCraft II)的开发商暴雪(Blizzard)发布给人工智能研究社区的。

DeepMind首席研究科学家戴维•西尔弗(David Silver)在早些时候的一次新闻发布会上表示:“(人类玩家数据)基本上提供了一个大致能反映人类行为的多样化策略基础。在这个基础上系统开始与自己对抗,并不断改变和发展这些策略,使它们变得越来越好。”

DeepMind星际争霸机器人领先人类多少?答:191年这意味着人工智能采取的游戏策略并不是随机产生的,它也也不需要学习像如何移动单元这样的基础知识。这就像一个人类玩家坐在一个老手玩家后面,看着他玩了大约50万次游戏。

今年早些时候,DeepMind首次展示了AlphaStar学习和改进人类微观战略的能力。在一场比赛中,AlphaStar将自己的单位分成小部分,在地图上多个地方包围对手,这一行动需要高度的精准性和协调性。

游戏解说员鹿特丹(RotterdaM)说:“如果我和人类玩家对弈,他们不会把(单位)缩小到这么小。”

为了让AlphaStar在游戏中掌控三种可玩的种族,DeepMind为人工智能系统创建了一个“联盟”,让它与自己竞争。AlphaStar玩了1.2亿场游戏,通过一个复杂的匹配系统,每个种族中目前最强大的机器人可以与“开拓者”机器人进行匹配,后者试图在AlphaStar喜欢的主导策略中找出漏洞。

通过这种方式,这项研究利用了最近流行的机器学习技巧——生成对抗网络(GANs)。其中一个网络试图生成一段数据,比如一幅图像,而另一个则试图判断这段数据是真实的还是人工智能生成的。这两个网络来回“争论”,直到生成的数据非常接近真实相机拍摄的图像。

《星际争霸2》之所以如此难以掌握,其中一个原因就是它是一款信息不不对称的游戏。这款游戏与围棋或国际象棋不同,玩家只能看到他们的单位探索过的部分地图,他们不知道对手在使用什么策略。在这方面,它很像扑克。

研究人员说,在将这项技术应用到现实中的过程中,还存在一个问题,那就是训练AlphaStar需要多少数据。除了人类提供的数据,AlphaStar还需要与自己对战200年,才能达到目前的水平。鉴于《星际争霸2》在2010年发布,人类与机器之间的竞争存在191年的劣势。

译者:Jane 

推荐阅读:同事总是指使你做事情,如何友善地进行反击?

推荐阅读:外国小哥分享:我是如何靠“副业”月入过万的?

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

我们热切期盼更多的德国企业、欧洲企业选择山东、选择济南,共同努力,不断探索和培育新的合作交流增长点,携手实现合作共赢。我们将全力做到持续深化改革开放,打造更加便利的营商环境,为中德对接合作搭好台,让广大企业在山东、在济南唱好戏。

2019-11-13

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业