剑指多人夺旗游戏，曾经挑战围棋之巅的Deepmind团魂燃烧了|界面新闻

作者 | 邢逸帆

很多人小时候都玩过的抓人、抢凳子游戏，在现在一些西方小朋友记忆里，可能会被替换成夺旗游戏。

夺旗游戏的规则为，对垒双方需要在保护自己阵营里旗子的同时，夺取藏在对方阵营里的敌旗带回自己的基地，而玩家一旦在抢旗过程中被敌人抓到，就会出局。

对于人类小孩来说，这种目标明确的合作类游戏非常容易掌握，但AI却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。

通过端到端的强化学习，AI已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中，由于可能出现的情况过于复杂，对于AI而言，在学习难度上，5岁小孩都会玩的夺旗还真的比围棋高出不少。

最近，工程师们终于教会了AI 夺旗。

上月底，DeepMind在Science上发表了论文《基于人口强化学习的AI在3D多人游戏中达到人类水平》（Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning），介绍了一种能让AI自己学会夺旗，并制定团队策略的模型。

DeepMind研究员、论文第一作者Max Jaderberg表示：“在训练过程中没有人告诉AI如何玩这款游戏——只有在胜利或失败后才知道AI是否了解怎么玩游戏。”

在最终测试中，这个名叫FTW（For The Win）的夺旗AI取得了比人类更好的表现。在2个人类对抗2个AI的比赛中，AI组平均每局比人类多拿16个旗。在两位人类专业选手开黑的情况下，人类对AI的胜率才勉强提到了25%（6%平局）。

FTW以压倒性的优势胜出。

终于，连团队合作也不是人类的专利了。

《雷神之锤3：竞技场》夺旗大战

DeepMind用来训练FTW的“斗兽场”，是大受欢迎的第一人称射击游戏《雷神之锤3：竞技场》中的夺旗模式。

在夺旗模式中，红蓝双方在随机生成的对称地图中比赛，五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地，双方基地被标记为不同颜色。

在夺旗过程中，除了追逐和躲避，玩家还可以用激光“点杀”扛旗的对手。点到对手后，旗子会被回收，对手几秒后会在自家基地里重生。

在以往的训练过程中，工程师们往往会帮助AI“作弊”——让AI访问环境模型、其他玩家或智能体的先验状态。比如在DeepMind与暴雪合作训练的《星际争霸2》智能体AlphaStar眼里，游戏就是被拆解好的各种特征层。

而在训练FTW时，AI没有开启上帝视角，只能通过观察和移动与环境和其他智能体交互。FTW可以前后左右移动，通过左右旋转扫视周围环境，获得的输入信息只有第一人称视角画面，和正常玩家完全一样。

为了给提供足够多的队友和敌人，工程师在地图里投放了30个智能体进行“大混战”。

为了防止智能体记忆地图，每次的场地也是随机生成的。

就像学生学习有快有慢一样，30个智能体的水平和偏好也参差不齐。在下图底部，每一个圆圈都代表一个智能体，圆圈内部的深色面积越大，则该智能体越强。在训练过程中，智能的计算策略也在不停地进化和变异。

几千局游戏后，每个智能体都建立了各自的奖励信号和小目标，有的决定去拔掉旗子，有的决定专门抢人头，真正做到了分工明确。

FTW自学成才

据论文描述，在计算公式中，有几个重要的参数。第一是智能体“看”到的第一人称视图像素，以RGB数值输入；第二是游戏中的得分，直接在得分板上显示；第三是AI采取的行动路径（左转右转或前进后退）。而智能体的最终目的，是找出一种使积累奖励值最大化的策略。

在训练时产生的数据分别被传递到两个循环神经网络，一个快，一个慢。快速神经网络处理和预测时间序列中不断发生的事件，慢速神经网络则对于养成行为策略有监督作用，两者在最后相互耦合，共同输出游戏行为。

此前，多人游戏中的智能体常常采用“左右互搏”的方式来自我进化，但这样训练出的智能体在团队合作中表现很不稳定。举个例子，在某些情况下AI会变成人工智障，在游戏刚开始时就有10个AI冲出去抢旗。

对此，DeepMind提出的解决方案是，并行训练多个不同的智能体集群相互配合，并基于比赛结果优化内部奖励系数。

通过个体和团队训练的双层流程，智能体确立了复杂的奖励机制——最大化自我奖励的内部目标，和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色，也有冲锋陷阵赢得鲜花荣耀的角色，而在FTW的奖励机制里，它们都是MVP。

请停止你的AI行为！

在这种训练框架下，FTW出现了很有意思的进化。

随着训练的进行，FTW有了自家基地的概念，然后认清了对方基地在哪，最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后，FTW立即更新了自己的行动。而此前，工程师从未有针对性地培训过智能体进行这些行为（对比AlphaStar，曾将游戏任务拆分成多模块分别进行强化学习）。这些结果表明，纯粹通过强化学习的训练，FTW自发产生了和游戏规则相关的概念。

据论文中说明，在进行游戏时FTW会自行分析将近200多个影响最终决策的问题，其中包括：我手上有旗帜吗？我最近见到过我的队友吗？我能很快到达敌方基地吗？

通过比较这些问题的答案和得分情况，FTW自行生成了能提高胜率的策略。

比如，在一名队友运送旗帜期间，会有另一名队员埋伏在敌方基地，因为FTW知道一旦运旗的队友被击杀，敌方旗帜马上会刷新，早就埋伏好的队员就可以立刻捡起来。

此外，在训练过程中，FTW曾经追着抢到旗的队友跑，后期发现这种策略对胜率无益，遂舍弃。在游戏快要结束时，FTW更倾向于在自家基地门口防守，以防止对方缩小比分差距，而在游戏前期则倾向于进攻。

在最终的测试中，DeepMind团队发现FTW能以16分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家，在FTW面前的也胜率只有25%。

为了确保游戏公平，工程师给FTW加上了267毫秒的反应延迟，结果FTW的胜率降低了，但仍高于人类。

未来的AI会进化出个性吗？

DeepMind这篇论文证明，即使没人教，没有上帝视角，甚至连基本游戏概念都没有，放养的AI也能在多智能体环境中学会竞争和合作，甚至出现和高级团队策略。

此外，每个智能体都进化出了各自的“小目标”，达成自己设定的目标就会获得奖励。就好像每个AI都在小时候写了一篇《我的理想》，无论是防守还是进攻，它们都有光明的前途。

也许在不久的将来，我们不仅能在游戏中遇到行动和人类类似的NPC，把单机游戏玩出联机感，还能养成一只有“个性”有理想的AI。

想想还有点小激动！

来源：PingWest品玩

原标题：剑指多人夺旗游戏，曾经挑战围棋之巅的Deepmind团魂燃烧了

最新更新时间：06/18 10:17