DeepMind将与暴雪联手打造一个基于星际II的AI研究平台

2016 年 10 月 4 日，DeepMind 的研究人员出现在了暴雪嘉年华大会现场，他们与暴雪的工程师一起为全世界的星际玩家和 AI 研究者们带来了一个好消息：双方已经开始合作，要基于星际 II 打造成一个 AI 研究平台，并向所有人开放。

您可能不知道 DeepMind 是谁，但一定听说过半年前那场轰动全球的人机大战，有八个世界围棋冠军头衔的李世石最终以 1：4 不敌人工智能 AlphaGo。DeepMind 就是开发 AlphaGo 的公司，他们是人工智能研究及应用领域的翘楚，于 2010 年在伦敦创立，2014 年被谷歌收购，目前隶属于 Alphabet 集团。

自成立以来，DeepMind 一直致力于拓展 AI 研究领域的边界，希望计算机能够像人类一样，利用学到的知识做出决策，解决各种复杂的问题。一直以来，DeepMind 都在借助游戏开发更智能、更灵活的 AI 算法。游戏能对算法的表现提供即时反馈，可以快速有效地检查开发成果，因此是开展这种研究的理想平台。AlphaGo 就是这样的产物，虽然很多人误以为 AlaphaGo 跟 1997 年击败国际象棋世界棋王卡斯帕罗夫的 DeeperBlue 是同类产品，但实际上两者有着本质差别。DeeperBlue 的胜利靠的是超越人类的运算速度和预先写好的国际象棋算法，通过暴力穷举和逻辑推演来决定每一步的走法。而 AlphaGo 更像人类，它遵循一套应用试错法的学习范式，在奖惩机制下从原始输入的知识中发展出能够得到长期回报的最优策略。

在达成预设目标的过程中，AI 代理必须不断进行价值判断，以便选择执行最优的动作。判断所依据的知识来源于 Q 网络，AI 代理依靠这些知识估算作出某种动作后得到的回报。两年前，DeepMind 开始利用深度神经网络表征 Q 网络，在训练代理预测总体奖励之后用深度 Q 网络（DQN）将代理的所有经验都保存下来，经过反复随机取样和重放这些经验来提供多元化和去相关性的训练数据。在此之前，将神经网络和优化学习算法相结合时，总会因为学习不稳定导致失败。在解决了学习不稳定的问题之后，DeepMind 用游戏主机Atari 2600 中50 个不同的游戏来验证深度强化学习的效果，让代理根据屏幕上的像素和奖励信号选择游戏杆的方向来控制游戏。在没有游戏规则作为先验知识的情况下，DRL 在几乎一半的游戏上的表现都达到了人类的水准，超出了之前的任何一种方法，这一成果被发表在《自然》杂志上。自那之后，DeepMind 一直在改进深度Q 网络算法。他们建立了一个大规模分布式深度强化学习系统 Gorila；推出了基于异步强化学习（Asynchronous RL）的方法，利用标准CPU 的多线程功能让代理的多个实例并行运行在同一个模型上；即将推出用于3D 导航和解密环境的DeepMind 迷宫。

近20 年来，星际系列一直是1v1 视频竞技游戏的巅峰之作，也是有史以来最好的PC 游戏之一。星际能在竞技游戏中长盛不衰，是暴雪多年以来的设计，以及他们平衡和完善游戏中的世界所付出的持续努力的明证。开始游戏之前，玩家先要从神族、人族和虫族三个种族里挑选自己的游戏种族。每个种族的单位都有各自的技能，因此玩法也各不相同。玩家要根据游戏里的经济状况来决定应该采取什么样的操作，建造建筑和生产新的单位都要靠采矿来支撑。所有玩家都在同时建设自己的基地，但每个玩家只能看到自己单位视野范围内的部分地图。所以，为了收集敌人的信息，玩家还必须派出自己的单位去侦查探图，并记住侦查得到的信息。

是不是应该建造更多单位？需不需要建造新的防御设施？要不要去把对手冲掉，或者还是先集中力量发展科技？我们在玩游戏时要解决很多问题，对于要看着屏幕玩游戏的计算机来说，随便拿出一个来都是非常有挑战性的前沿课题。因为环境是部分可见的，所以对AI 来说这个游戏比象棋或围棋之类的游戏更具有挑战性。并且这是一个实施策略游戏，所有玩家都在同时操作，每个决定都需要快速有效的计算支持。

能把星际玩好的AI 代理需要有高效的内存利用能力、长期规划能力、基于新获取的信息调整计划的能力。虽然计算机有极其准确迅速的控制能力，但那不是拼智慧，所以AI 代理跟游戏交互的速度必须跟人类的“操作数/ 每分钟”指标保持一致。星际中的这种高维动作空间跟强化学习之前研究的领域非常不一样；比如说，要执行“将基地扩展到某一地点”这样简单的操作，就必须协调好鼠标点击、摄像头和可用的资源。这会让操作和规划变成层级化结构，这对强化学习来说是个不小的挑战。更别提还要学会挖矿、放置和建造基本的建筑、探索地图找到隐藏的对手等等复杂的技能了。

DeepMind 正在星际 II 这个高能实验室中研究如何解决这些问题，目前他们正在开发一套API ，跟之前那种基于“脚本”编写的机器人类似，可以用程序控制游戏中的每个单位，获取整个游戏的状态（还会有些新功能），预计将在2017 年一季度推出。但最终AI 代理会跟人一样，要基于它们“看到”的游戏界面来玩这个游戏，所以还会有一个基于图片的新接口，能够输出经过简化的低分辨率图形数据，并且能将游戏界面分解成不同的图层，比如地形高度场、单位类型、单位健康状况等等，如下图所示：

此外，DeepMind 和暴雪还会非常贴心地制作一系列的“教学”场景，任何水平的研究人员都能从中找到难度适当的任务，启动一个AI 代理来检验自己的算法。此外，研究人员还可以用星际II 现有的编辑工具创建自己的任务。

等到明年的时候，这个由DeepMind 和暴雪共同构建的研究平台就可以开放给所有人了。业内的开发者和研究人员在DeepMind 最近几年研究巢穴战争时作出的贡献给DeepMind 团队留下了非常深刻的印象，因此他们希望这个直接得到暴雪团队支持的新平台依然能博得大家的青睐，共同推进这一伟大的事业。虽然目前跟职业玩家还有很大差距，但AI 代理强大的深度学习能力还是让人觉得非常期待的。

对于普通玩家来讲，接着玩游戏就是在为这项研究做贡献，玩游戏的数据可以帮助AI 代理们更好地理解这个游戏。游戏中复杂的规则可以作为AI 进入混乱的真实世界的桥梁，星际II 中提供的小宇宙是继续推进AI 研究的理想平台。在训练AI 代理玩星际的过程中取得的进展和成果，最终将用来解决我们在现实世界中遇到的问题。

你还在等什么？赶紧叫上小伙伴来一局吧！让我们跟DeepMind 和暴雪一起，为星际II，为我们生活的世界掀开这振奋人心的新篇章吧！

感谢冬雨对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

创作场景

DeepMind 将与暴雪联手打造一个基于星际 II 的 AI 研究平台