AI玩Dota2打出4200逆天高分超过90%人类玩家|界面新闻

智东西

编 | 心缘

智东西6月26日消息，美国时间25日，著名非营利性机构OpenAI宣布人工智能界的新惊喜：AI已能像人类一样“组队”，在5v5对战中完虐Dota 2人类玩家，并且平均天梯分数超过4200分（超过将近90%的DOTA2玩家，去年中国平均天梯分为3274分）。

OpenAI的支持者、特斯拉创始人伊隆马斯克（Elon Musk）表示：“OpenAI首次在竞争激烈的电子竞技中击败世界顶尖玩家，这远比围棋、象棋等传统棋盘游戏更加复杂。”

审核中，视频暂时无法播放：转码进行中一、AI团战首秀，表现神乎其技

Dota 2是一个非常复杂的实时战略游戏。两个分别由5名玩家组成的队伍相互进攻，围剿并摧毁对方玩家的基地。这款游戏拥有115个可玩英雄，每个英雄都拥有独特的技能和属性，这意味着对于人类而言，完美操作应对游戏的全部可能性基本上是不可能的。然而，AI或许可以打破这一局限性。

▲Dota 2顶级职业玩家Dendi

去年8月的Dota 2国际邀请赛TI7上，Open AI的机器人在1v1比赛中完虐Dota 2顶级职业玩家Dendi。Dendi是世界知名Dota 2职业选手、solo高手，玩法灵活，经常玩出神级操作，曾带领Navi战队拿下TI1冠军和TI2、TI3亚军。在这场人机对战中，AI的表现相当彪悍，出手娴熟狠厉，卡兵、压制、补给等操作样样在行，几乎刀刀致命，就连假动作和秀走位也展现超高水平。AI第一场仅用10分钟就击败Dendi，第二局一开场就进塔强杀Dendi，逼得Dendi直接认输并拒绝进行第三场比赛。

▲OpenAI Dota团队的一个分支，拿着笔记本电脑，去年击败了Dota 1v1世界顶级专业玩家。

昨日，OpenAI的AI系统华丽升级，推出OpenAI Five系统首次挑战5v5团战，并成功击败Open AI内最好的员工团队。这场比赛由专业评论员Blitz和OpenAI Dota团队成员Christy Dennison参与评论，并被社区群众围观。

在此次对战中，团队降低了一定的团战难度：其一，对手非顶尖职业选手；其二，AI暂时只会使用5位英雄；其三，要求人类玩家不能使用真假眼。这些限制使得OpenAI Five参与的比赛比最具挑战性的人类版本更简单。

迄今为止，OpenAI Five已在和如下团队发生过对战：

1、最强OpenAI员工团队：2500 MMR；

2、观看OpenAI员工比赛的最强观众（包括评论第一场OpenAI员工比赛的Blitz）：4000-6000 MMR；

3、 Valve员工团队：2500-4000 MMR；

4、业余队：4200 MMR，团队训练；

5、半职业队：5500 MMR，团队训练。

其中，MMR（MATCH MAKING RATING）指匹配等级，用来确保玩家能够和真实实力相近的玩家对抗，并且影响玩家在赛后能够获得或者输掉多少积分。经过一段时间，玩家积分将会逐渐向其隐藏MMR值靠近。

OpenAI Five在4月23日的版本首次击败脚本基线，5月15日版本与第一队平分秋色，赢输各一场。在6月6日和1-3队的对决中，新版本OpenAI Five赢得所有比赛。随后团队进行了呵4、5队的非正式比赛，原以为AI会输，孰料OpenAI Five前三场比赛就打赢两场。

在比赛中，OpenAI Five为了控制敌方，反复牺牲自己的安全路径，迫使对方团队难以防御。为了从游戏早期到中期比对手更快，OpenAI Five做出两个行动：（1）建立成功的ganks（玩家在地图上移动以埋伏对手英雄）；（2）在对手集合前先行组队推塔。

此外，OpenAI Five还有些非主流的打法，比如把前期经验和钱给辅助英雄。它的优先级能让伤害值涨的更快，使其快速赢得团战。研究团队称，OpenAI Five平均每分钟执行150-170次动作，而理论上每4帧观察到的最大值是450，这个时间掌控对于人类而言已经趋于完美。OpenAI Five的平均反应时间也比人类更快，仅为80ms。

▲ 在OpenAI员工和机器人进行比赛后颁发奖杯，机器人奖杯由其团队的Susan Zhang代领

专业Dota比赛评论员Blitz表示：“感觉就好像五个知道优秀总体战略的无私玩家协同合作，机器人的团队合作令人深受冲击。”

二、“刻苦”学习：每天玩180年的游戏

OpenAI Five通过强化学习实现自我学习，每天通过积累的游戏经验需要人类用180年才能获得，如此“勤学苦练”，拥有超强策略能力似乎也并不是什么值得意外的事。

五个神经网络组成的团队大大增加了AI系统对计算能力的需求，OpenAI Five使用在256个GPU和128,000个CPU内核上运行的扩展版近端策略优化进行训练。对每个英雄使用单独的LSTM并且不使用人类数据，它学习可识别的策略。

1、模型结构

每个OpenAI Five的网络都包含一个单层有1024个单元的LSTM，它可以通Valve的Bot API查看当前的游戏状态，并通过几个可能的动作做出下一步操作，比如延迟此动作的刻度数量、要选择的动作数量以及单位周围网格中此动作的X或Y坐标等等。

2、勘探环境

为了能够及时作出有效应变，OpenAI Five需要长期不断地探索环境。OpenAI Five通过探索获得对应的奖励值，以衡量人们在游戏中做出的进攻、辅助等决定，在减去平均奖励后为OpenAI Five的下一步行动提供选择的基准。

3、协调

OpenAI Five的英雄神经网络之间并没有具体的通信渠道，它们通过被研究人员称为“团队精神”的超参数控制团队合作。“团队精神”范围从0到1，对OpenAI Five的每个英雄如何权衡多少个人奖励与团队奖励提供了权值设置，从而使得系统因地制宜地学习新策略。

4、快速

OpenAI Five使用通用RL训练系统Rapid，研究人员已经使用Rapid解决了OpenAI的竞争性自我对局（Competitive Self-Play）等其他问题。研究团队使用自己的NCCL2封装来并行GPU计算和网络数据传输，并采用Kubernetes，Azure和GCP后端。

三、挑战比AlphaGo更高的难度

人们提到AI里程碑式的进步，往往会想到AI战胜国际象棋或围棋世界冠军。如今，新的AI的里程碑则是在像StarCraft或Dota 这样复杂的视频游戏中表现超越人类。比传统棋牌游戏难度更大的是，复杂的视频游戏开始捕捉现实世界的混乱和连续移动。这需要能够适应这类游戏规则的系统具有很高的通用性。

玩Dota 2的AI面临以下几个难点：

1、持续时间长

Dota游戏以每秒30帧的速度运行，平均时间为45分钟，每场游戏平均80,000帧。OpenAI Five每4帧观察一次，产生20,000次移动。几乎所有的举动是战略性的。

2、观察范围受限

象棋和围棋都是全信息游戏，而Dota游戏中敌人可以隐藏，比赛需要根据不完整的数据进行推断，并且需要实时掌握对手的状态信息。AI暂时不具备对视野的控制能力，玩的版本要求双方只能在游戏既定视野中对战，不能根据能力改变视野。

3、高度连续的动作空间

在Dota中，每个英雄可以采取数十个动作。研究人员将每个英雄的空间分割成170,000个可能的行动；不计连续部分，每帧平均有大约1000次有效操作。而围棋的平均动作数为250步，国际象棋则更少，仅有35步。

4、高维度连续的观察空间

Dota在包含十个英雄、数十个建筑物、几十个NPC单位以及诸如符文、树木和病房等一系列游戏特征，这些特征将持续在梯田上移动。OpenAI Five模型通过Valve的Bot API观察Dota游戏的状态，其中大约20,000个浮点数被用于表示允许人类访问的所有信息。相比之下，国际象棋棋盘大约需70个枚举值，一个Go棋盘大约需400个枚举值。

Dota规则也非常复杂，游戏已经被开发了十多年，拥有数十万行复杂代码。这个逻辑需要几毫秒的时间才能执行，而对于国际象棋和围棋而言，只需要几纳秒。此外，游戏每两周更新一次，它大环境语义也在不断改变。针对这些问题，OpenAI Five团队使用Proximal Policy Optimization的大规模版本进行学习，其使用的CPU、图形处理器、游戏每秒观察数等各种参数都较去年的OpenAI 1v1机器人有了全面的提升。

根据当前版本OpenAI Five的测试比赛表现，评论员Blitz估计它大致是Dota玩家的中间水平。在比赛过程中，研究人员发现，OpenAI Five会做出一些专业策略，比如为了长期的团队回报而做出暂时的自我牺牲，以残血将人类玩家诱出高地。这些观察大大增加了研究人员的信心，对于游戏中还没有整合进来的一些元素，他们将在后续尽快加上。

结语：剑指TI8，我们的目标是星辰大海

这仅仅是个开始。尽管OpenAI Five还有很大的障碍需要克服，耗费了大量的人力和财力，它的野心又怎么可能止步于和业余玩家对局？OpenAI Five的研究团队称，他们正在专注于优化系统，希望它能超越人类的表现。

有了去年1v1的完胜成绩，今年8月下旬，在加拿大温哥华举行的顶级Dota 2赛事TI8上，OpenAI Five将进军5v5团战，与真正的专业选手战队一决高下。在此之前的7月28日，OpenAI Five会先行与顶级玩家对战，并通过Twitch的实况转播和大家见面。

如果OpenAI Five能打出漂亮的一仗，它将分食DeepMind的AlphaGo系列带给人们的雷霆。真实世界的AI部署要处理的难题远远比在国际象棋、围棋、Atari游戏中的问题更加复杂，“协作型”AI技将有望学会真实世界中复杂而混乱的重要任务。比如，通过相互配合在在线交易或广告竞价排名中拿下订单，在组队完成多样化生产制造任务，甚至是完成外科手术等等。这些都会使人类双手得到进一步解放。

OpenAI希望有朝一日，借助和Dota 2比赛的经验构建更加通用的系统，为人类社会做出贡献。

原文来自：OpenAI，The Verge，Financial Times

智东西

编 | 心缘

审核中，视频暂时无法播放：转码进行中一、AI团战首秀，表现神乎其技

▲Dota 2顶级职业玩家Dendi

▲OpenAI Dota团队的一个分支，拿着笔记本电脑，去年击败了Dota 1v1世界顶级专业玩家。

迄今为止，OpenAI Five已在和如下团队发生过对战：

1、最强OpenAI员工团队：2500 MMR；

2、观看OpenAI员工比赛的最强观众（包括评论第一场OpenAI员工比赛的Blitz）：4000-6000 MMR；

3、 Valve员工团队：2500-4000 MMR；

4、业余队：4200 MMR，团队训练；

5、半职业队：5500 MMR，团队训练。

▲ 在OpenAI员工和机器人进行比赛后颁发奖杯，机器人奖杯由其团队的Susan Zhang代领

专业Dota比赛评论员Blitz表示：“感觉就好像五个知道优秀总体战略的无私玩家协同合作，机器人的团队合作令人深受冲击。”

二、“刻苦”学习：每天玩180年的游戏

1、模型结构

2、勘探环境

3、协调

4、快速

三、挑战比AlphaGo更高的难度

玩Dota 2的AI面临以下几个难点：

1、持续时间长

Dota游戏以每秒30帧的速度运行，平均时间为45分钟，每场游戏平均80,000帧。OpenAI Five每4帧观察一次，产生20,000次移动。几乎所有的举动是战略性的。

2、观察范围受限

3、高度连续的动作空间

4、高维度连续的观察空间

结语：剑指TI8，我们的目标是星辰大海

OpenAI希望有朝一日，借助和Dota 2比赛的经验构建更加通用的系统，为人类社会做出贡献。

原文来自：OpenAI，The Verge，Financial Times

历史搜索全部删除

热门搜索

AI玩Dota2打出4200逆天高分超过90%人类玩家

OpenAI

评论

AI玩Dota2打出4200逆天高分超过90%人类玩家

AI玩Dota2打出4200逆天高分 超过90%人类玩家

OpenAI

评论

AI玩Dota2打出4200逆天高分 超过90%人类玩家

AI玩Dota2打出4200逆天高分超过90%人类玩家

AI玩Dota2打出4200逆天高分超过90%人类玩家