正在阅读:

剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

扫一扫下载界面新闻APP

剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

AlphaGo对阵柯洁为AI端对端的训练,AI夺旗面临的情况更为复杂,好在也被人类训练出来。

作者 |  邢逸帆

很多人小时候都玩过的抓人、抢凳子游戏,在现在一些西方小朋友记忆里,可能会被替换成夺旗游戏。

夺旗游戏的规则为,对垒双方需要在保护自己阵营里旗子的同时,夺取藏在对方阵营里的敌旗带回自己的基地,而玩家一旦在抢旗过程中被敌人抓到,就会出局。

▲夺旗游戏规则,会跑就能玩

对于人类小孩来说,这种目标明确的合作类游戏非常容易掌握,但AI却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。

▲唉呀摔倒了

通过端到端的强化学习,AI已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中,由于可能出现的情况过于复杂,对于AI而言,在学习难度上,5岁小孩都会玩的夺旗还真的比围棋高出不少。

最近,工程师们终于教会了AI 夺旗。

上月底,DeepMind在Science上发表了论文《基于人口强化学习的AI在3D多人游戏中达到人类水平》(Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning),介绍了一种能让AI自己学会夺旗,并制定团队策略的模型。

DeepMind研究员、论文第一作者Max Jaderberg表示:“在训练过程中没有人告诉AI如何玩这款游戏——只有在胜利或失败后才知道AI是否了解怎么玩游戏。”

在最终测试中,这个名叫FTW(For The Win)的夺旗AI取得了比人类更好的表现。在2个人类对抗2个AI的比赛中,AI组平均每局比人类多拿16个旗。在两位人类专业选手开黑的情况下,人类对AI的胜率才勉强提到了25%(6%平局)。

FTW以压倒性的优势胜出。

▲DeepMind测试员苦战中

终于,连团队合作也不是人类的专利了。

《雷神之锤3:竞技场》夺旗大战

DeepMind用来训练FTW的“斗兽场”,是大受欢迎的第一人称射击游戏《雷神之锤3:竞技场》中的夺旗模式。

▲MineCraft 重现的《雷神之锤》夺旗地图

在夺旗模式中,红蓝双方在随机生成的对称地图中比赛,五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地,双方基地被标记为不同颜色。

在夺旗过程中,除了追逐和躲避,玩家还可以用激光“点杀”扛旗的对手。点到对手后,旗子会被回收,对手几秒后会在自家基地里重生。

在以往的训练过程中,工程师们往往会帮助AI“作弊”——让AI访问环境模型、其他玩家或智能体的先验状态。比如在DeepMind与暴雪合作训练的《星际争霸2》智能体AlphaStar眼里,游戏就是被拆解好的各种特征层。

▲AlphaStar 眼中的《星际2》

而在训练FTW时,AI没有开启上帝视角,只能通过观察和移动与环境和其他智能体交互。FTW可以前后左右移动,通过左右旋转扫视周围环境,获得的输入信息只有第一人称视角画面,和正常玩家完全一样。

▲FTW 眼中的地图

为了给提供足够多的队友和敌人,工程师在地图里投放了30个智能体进行“大混战”。

为了防止智能体记忆地图,每次的场地也是随机生成的。

就像学生学习有快有慢一样,30个智能体的水平和偏好也参差不齐。在下图底部,每一个圆圈都代表一个智能体,圆圈内部的深色面积越大,则该智能体越强。在训练过程中,智能的计算策略也在不停地进化和变异。

几千局游戏后,每个智能体都建立了各自的奖励信号和小目标,有的决定去拔掉旗子,有的决定专门抢人头,真正做到了分工明确。

FTW自学成才

据论文描述,在计算公式中,有几个重要的参数。第一是智能体“看”到的第一人称视图像素,以RGB数值输入;第二是游戏中的得分,直接在得分板上显示;第三是AI采取的行动路径(左转右转或前进后退)。而智能体的最终目的,是找出一种使积累奖励值最大化的策略。

在训练时产生的数据分别被传递到两个循环神经网络,一个快,一个慢。快速神经网络处理和预测时间序列中不断发生的事件,慢速神经网络则对于养成行为策略有监督作用,两者在最后相互耦合,共同输出游戏行为。

此前,多人游戏中的智能体常常采用“左右互搏”的方式来自我进化,但这样训练出的智能体在团队合作中表现很不稳定。举个例子,在某些情况下AI会变成人工智障,在游戏刚开始时就有10个AI冲出去抢旗。

对此,DeepMind提出的解决方案是,并行训练多个不同的智能体集群相互配合,并基于比赛结果优化内部奖励系数。

通过个体和团队训练的双层流程,智能体确立了复杂的奖励机制——最大化自我奖励的内部目标,和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色,也有冲锋陷阵赢得鲜花荣耀的角色,而在FTW的奖励机制里,它们都是MVP。

请停止你的AI行为!

在这种训练框架下,FTW出现了很有意思的进化。

随着训练的进行,FTW有了自家基地的概念,然后认清了对方基地在哪,最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后,FTW立即更新了自己的行动。而此前,工程师从未有针对性地培训过智能体进行这些行为(对比AlphaStar,曾将游戏任务拆分成多模块分别进行强化学习)。这些结果表明,纯粹通过强化学习的训练,FTW自发产生了和游戏规则相关的概念。

▲一开始混乱的行为渐渐有序

据论文中说明,在进行游戏时FTW会自行分析将近200多个影响最终决策的问题,其中包括:我手上有旗帜吗?我最近见到过我的队友吗?我能很快到达敌方基地吗?

通过比较这些问题的答案和得分情况,FTW自行生成了能提高胜率的策略。

比如,在一名队友运送旗帜期间,会有另一名队员埋伏在敌方基地,因为FTW知道一旦运旗的队友被击杀,敌方旗帜马上会刷新,早就埋伏好的队员就可以立刻捡起来。

▲FTW做出决策时被各个条件激活的区域

此外,在训练过程中,FTW曾经追着抢到旗的队友跑,后期发现这种策略对胜率无益,遂舍弃。在游戏快要结束时,FTW更倾向于在自家基地门口防守,以防止对方缩小比分差距,而在游戏前期则倾向于进攻。

在最终的测试中,DeepMind团队发现FTW能以16分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家,在FTW面前的也胜率只有25%。

为了确保游戏公平,工程师给FTW加上了267毫秒的反应延迟,结果FTW的胜率降低了,但仍高于人类。

未来的AI会进化出个性吗?

DeepMind这篇论文证明,即使没人教,没有上帝视角,甚至连基本游戏概念都没有,放养的AI也能在多智能体环境中学会竞争和合作,甚至出现和高级团队策略。

此外,每个智能体都进化出了各自的“小目标”,达成自己设定的目标就会获得奖励。就好像每个AI都在小时候写了一篇《我的理想》,无论是防守还是进攻,它们都有光明的前途。

也许在不久的将来,我们不仅能在游戏中遇到行动和人类类似的NPC,把单机游戏玩出联机感,还能养成一只有“个性”有理想的AI。

想想还有点小激动!

来源:PingWest品玩

原标题:剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

最新更新时间:06/18 10:17

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

AlphaGo对阵柯洁为AI端对端的训练,AI夺旗面临的情况更为复杂,好在也被人类训练出来。

作者 |  邢逸帆

很多人小时候都玩过的抓人、抢凳子游戏,在现在一些西方小朋友记忆里,可能会被替换成夺旗游戏。

夺旗游戏的规则为,对垒双方需要在保护自己阵营里旗子的同时,夺取藏在对方阵营里的敌旗带回自己的基地,而玩家一旦在抢旗过程中被敌人抓到,就会出局。

▲夺旗游戏规则,会跑就能玩

对于人类小孩来说,这种目标明确的合作类游戏非常容易掌握,但AI却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。

▲唉呀摔倒了

通过端到端的强化学习,AI已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中,由于可能出现的情况过于复杂,对于AI而言,在学习难度上,5岁小孩都会玩的夺旗还真的比围棋高出不少。

最近,工程师们终于教会了AI 夺旗。

上月底,DeepMind在Science上发表了论文《基于人口强化学习的AI在3D多人游戏中达到人类水平》(Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning),介绍了一种能让AI自己学会夺旗,并制定团队策略的模型。

DeepMind研究员、论文第一作者Max Jaderberg表示:“在训练过程中没有人告诉AI如何玩这款游戏——只有在胜利或失败后才知道AI是否了解怎么玩游戏。”

在最终测试中,这个名叫FTW(For The Win)的夺旗AI取得了比人类更好的表现。在2个人类对抗2个AI的比赛中,AI组平均每局比人类多拿16个旗。在两位人类专业选手开黑的情况下,人类对AI的胜率才勉强提到了25%(6%平局)。

FTW以压倒性的优势胜出。

▲DeepMind测试员苦战中

终于,连团队合作也不是人类的专利了。

《雷神之锤3:竞技场》夺旗大战

DeepMind用来训练FTW的“斗兽场”,是大受欢迎的第一人称射击游戏《雷神之锤3:竞技场》中的夺旗模式。

▲MineCraft 重现的《雷神之锤》夺旗地图

在夺旗模式中,红蓝双方在随机生成的对称地图中比赛,五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地,双方基地被标记为不同颜色。

在夺旗过程中,除了追逐和躲避,玩家还可以用激光“点杀”扛旗的对手。点到对手后,旗子会被回收,对手几秒后会在自家基地里重生。

在以往的训练过程中,工程师们往往会帮助AI“作弊”——让AI访问环境模型、其他玩家或智能体的先验状态。比如在DeepMind与暴雪合作训练的《星际争霸2》智能体AlphaStar眼里,游戏就是被拆解好的各种特征层。

▲AlphaStar 眼中的《星际2》

而在训练FTW时,AI没有开启上帝视角,只能通过观察和移动与环境和其他智能体交互。FTW可以前后左右移动,通过左右旋转扫视周围环境,获得的输入信息只有第一人称视角画面,和正常玩家完全一样。

▲FTW 眼中的地图

为了给提供足够多的队友和敌人,工程师在地图里投放了30个智能体进行“大混战”。

为了防止智能体记忆地图,每次的场地也是随机生成的。

就像学生学习有快有慢一样,30个智能体的水平和偏好也参差不齐。在下图底部,每一个圆圈都代表一个智能体,圆圈内部的深色面积越大,则该智能体越强。在训练过程中,智能的计算策略也在不停地进化和变异。

几千局游戏后,每个智能体都建立了各自的奖励信号和小目标,有的决定去拔掉旗子,有的决定专门抢人头,真正做到了分工明确。

FTW自学成才

据论文描述,在计算公式中,有几个重要的参数。第一是智能体“看”到的第一人称视图像素,以RGB数值输入;第二是游戏中的得分,直接在得分板上显示;第三是AI采取的行动路径(左转右转或前进后退)。而智能体的最终目的,是找出一种使积累奖励值最大化的策略。

在训练时产生的数据分别被传递到两个循环神经网络,一个快,一个慢。快速神经网络处理和预测时间序列中不断发生的事件,慢速神经网络则对于养成行为策略有监督作用,两者在最后相互耦合,共同输出游戏行为。

此前,多人游戏中的智能体常常采用“左右互搏”的方式来自我进化,但这样训练出的智能体在团队合作中表现很不稳定。举个例子,在某些情况下AI会变成人工智障,在游戏刚开始时就有10个AI冲出去抢旗。

对此,DeepMind提出的解决方案是,并行训练多个不同的智能体集群相互配合,并基于比赛结果优化内部奖励系数。

通过个体和团队训练的双层流程,智能体确立了复杂的奖励机制——最大化自我奖励的内部目标,和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色,也有冲锋陷阵赢得鲜花荣耀的角色,而在FTW的奖励机制里,它们都是MVP。

请停止你的AI行为!

在这种训练框架下,FTW出现了很有意思的进化。

随着训练的进行,FTW有了自家基地的概念,然后认清了对方基地在哪,最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后,FTW立即更新了自己的行动。而此前,工程师从未有针对性地培训过智能体进行这些行为(对比AlphaStar,曾将游戏任务拆分成多模块分别进行强化学习)。这些结果表明,纯粹通过强化学习的训练,FTW自发产生了和游戏规则相关的概念。

▲一开始混乱的行为渐渐有序

据论文中说明,在进行游戏时FTW会自行分析将近200多个影响最终决策的问题,其中包括:我手上有旗帜吗?我最近见到过我的队友吗?我能很快到达敌方基地吗?

通过比较这些问题的答案和得分情况,FTW自行生成了能提高胜率的策略。

比如,在一名队友运送旗帜期间,会有另一名队员埋伏在敌方基地,因为FTW知道一旦运旗的队友被击杀,敌方旗帜马上会刷新,早就埋伏好的队员就可以立刻捡起来。

▲FTW做出决策时被各个条件激活的区域

此外,在训练过程中,FTW曾经追着抢到旗的队友跑,后期发现这种策略对胜率无益,遂舍弃。在游戏快要结束时,FTW更倾向于在自家基地门口防守,以防止对方缩小比分差距,而在游戏前期则倾向于进攻。

在最终的测试中,DeepMind团队发现FTW能以16分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家,在FTW面前的也胜率只有25%。

为了确保游戏公平,工程师给FTW加上了267毫秒的反应延迟,结果FTW的胜率降低了,但仍高于人类。

未来的AI会进化出个性吗?

DeepMind这篇论文证明,即使没人教,没有上帝视角,甚至连基本游戏概念都没有,放养的AI也能在多智能体环境中学会竞争和合作,甚至出现和高级团队策略。

此外,每个智能体都进化出了各自的“小目标”,达成自己设定的目标就会获得奖励。就好像每个AI都在小时候写了一篇《我的理想》,无论是防守还是进攻,它们都有光明的前途。

也许在不久的将来,我们不仅能在游戏中遇到行动和人类类似的NPC,把单机游戏玩出联机感,还能养成一只有“个性”有理想的AI。

想想还有点小激动!

来源:PingWest品玩

原标题:剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

最新更新时间:06/18 10:17

本文为转载内容,授权事宜请联系原著作权人。