深度学习：2016年大事记回放

2016 年，人工智能发展火热。作为人工智能一个重要分支的深度学习，也正在受到大家越来越多的关注。2016 年是深度学习高速发展的一年。在这一年中，无论是工业界、学术界还是广大群众都投身到了深度学习的洪流之中。在工业界，谷歌（Google）、脸书（Facebook）、百度、阿里巴巴等一系列国内外大公司纷纷对外公开宣布了人工智能将作为他们下一个战略重心。在人才方面，继深度学习界泰斗吴恩达（Andrew Ng）加入百度、Yann LeCun 加入脸书之后，各大 IT 公司开始哄抢学术界大牛。斯坦福大学教授、计算机视觉领域领军人物李飞飞（Feifei Li）于今年 11 月加入谷歌；卡内基梅隆大学教授、机器学习领域顶级人物 Alex Smola 于今年 6 月加入亚马逊（Amazon）。在工具方面，谷歌、脸书、百度、微软、亚马逊等公司相继开源了各自的深度学习框架，谁能引领人工智能的潮流将成为各大 IT 公司的下一个战场。

在学术界，深度学习继续推动着图像识别、视频分析、语音识别、语音合成、机器翻译、自然语言处理、人机博弈等各个领域的发展。在 2016 年中，深度学习概念已经不再局限在大学实验室或者顶级的 IT 公司里，随着 AlphaGo 战胜围棋世界冠军李世石、更多的无人驾驶车行驶在马路上、Prisma 推出基于深度学习的图像风格转换应用、自动写作机器人的出现等等，大众越来越能切身的感受到人工智能所带来的改变。在下面的篇幅中，笔者将带大家一起回顾一下 2016 年深度学习领域都发生了哪些值得关注的大事。

3 月：AlphaGo 战胜李世石

在北京时间 2016 年 3 月 15 日的下午，谷歌开发的围棋深度学习系统 AlphaGo 以总比分 4：1 战胜了韩国棋手李世石，成为第一个在 19×19 棋盘上战胜人类围棋冠军的智能系统。AlphaGo 战胜李世石把深度学习的概念从学术界推向了大众，并点燃了大众对于人工智能的巨大热情。虽然 AlphaGo 不是第一个战胜人类世界冠军的系统，但 AlphaGo 的胜利绝对是人工智能历史上的一座里程碑。

和 1997 年 IBM 的智能系统深蓝（deep blue）击败国际象棋世界冠军卡斯帕罗夫不同，完全依靠计算机的运算速度是几乎无法在 19×19 的围棋棋盘上战胜人类的。为了在完整的围棋棋盘上战胜人类世界冠军，AlphaGo 需要使用更加智能的方式。深度学习技术为这种方式提供了可能。在 AlphaGo 的核心组成部分中，估值网络（Value Network）和走棋网络（Policy Network）都使用到了深度学习的技术，这也是 AlphaGo 背后真正的大脑。

虽然 AlphaGo 战胜李世石将人工智能推向了一个新的高度，但它的能力也不应该被过分放大，更不应该认为人工智能全面超越人类的时代即将来临。因为 AlphaGo 能够解决的仅仅只是在一个特定环境中定义好的问题，要将人工智能系统真正的应用到开放环境还需要研究人员更多的努力。这也将是 AI 未来发展的方向。

4 月：TensorFlow 发布分布式版本

虽然 TensorFlow 早在去年 11 月就正式开源，但在开源初期却受到了很大的争议。单机版 TensorFlow 的最大问题在于无法有效的利用海量数据，而这正是深度学习最大的优势之一。让我们以谷歌提出的 Inception-v3 模型为例。该模型在 ImageNet 数据集上可以达到 95% 的正确率。然而要在单机上把 Inception-v3 模型训练到 78% 的准确率需要接近半年的时间。如果要训练到 95% 的正确率则需要数年。这在生产环境中简直是无法忍受的。

为了解决这个问题，TensorFlow 于今年 4 月发布了版本 0.8.0。从该版本开始，TensorFlow 开始支持分布式模型训练。分布式 TensorFlow 可以极大的加速神经网络的训练过程，上图展示了分布式 TensorFlow 的加速比率。从图中我们可以看到，通过 100 个 GPU 并行的方式，Inception-v3 模型的训练速度可以加快 65 倍，这使得原来需要半年的训练过程可以在不到 3 天的时间内得到结果。这也标志着 TensorFlow 从一个玩具变成了真正能用的工具。在 TensorFlow 0.8.0 发布不久，DeepMind 也宣布之后的所有系统都将基于 TensorFlow 来开发。

虽然 TensorFlow 已经支持分布式，但如果类比 TensorFlow 和 Hadoop 系统，那么 TensorFlow 相当于只实现了 Hadoop 系统中 MapReduce 计算框架的部分。要将 TensorFlow 真正应用到真实的生产环境仍然存在门槛。不过，将 Kubernetes 与 TensorFlow 结合，通过 Kubernetes 实现对 TensorFlow 任务的监控、管理，可以有效解决这些问题。

6 月：Prisma 图像风格转换 App 上线

Prisma 是一款通过深度学习技术改变图像风格的手机 App。该应用上线之后，在短短一个星期时间内下载量超过了七百万次，且拥有超过一百万的活跃用户。该应用的推出标志着深度学习技术不仅是一门科学，它更可以被应用于艺术领域。下图展示了经过 Prisma 处理之后的图片效果。Prisma 的出现将深度学习技术从高深的学术研究推到了大众的日常生活，让其更加广泛的被大众所了解。在该软件之后，更多图像、视频风格转换（比如像脸书推出的 Caffe2Go）、自动音乐作曲等软件被陆续推出。

7 月：谷歌智能数据中心

继 AlphaGo 之后，谷歌的 DeepMind 团队将深度学习的技术用在了智能数据中心上。通过增强学习（reinforcement learning），新的数据中心智能系统可以更好的配合机器内的风扇和数据中心的空调使得既可以保证所有机器的散热，又可以最大限度的降低能源的消耗。通过控制数据中心内 120 多种不同的设备，智能数据中心可以节省大约 15% 的能源开销，每年为谷歌节省数百万美元的成本。而且这只是深度学习在智能数据中心应用的开始，DeepMind 团队还在尝试安装更多的传感器和控制器使得数据中心的能源利用率可以进一步提升。

8 月：SyntaxNet 发布 40 种语言的语法分析模型

在今年 5 月，谷歌发布了基于深度学习的自然语言理解（Natural Language Understanding， NLU）算法框架 SyntaxNet，并且提供了训练好的英语语法分析器 Parsey McParseface。在随机抽取的 Penn Treebank 新闻数据集上，该语法分析器可以达到超过 94% 的准确率。这样的正确率已经超过了以往所有的算法，并已经非常接近不同语言学家之间大约 96%-97% 的认同率。不同语言学家对同一句话可能有不同的分析，认同率刻画了他们之间彼此认同的概率有多高，这也大致给出了计算机可以达到的理论上限。不过这只是在文法非常规范的新闻数据集上，在谷歌从网页上整理得到的 Web Treebank 数据集上，Parsey McParseface 可以达到大约 90% 的正确率。

在继 Parsey McParseface 之后，谷歌于今年 8 月又开源了 40 种其他语言的分析模型，并且同时支持文本分割（Text segmentation）和形态学分析（Morphological Analysis）功能。到目前为止，通过 SyntaxNet 开源的模型已经可以分析覆盖全球半数以上人口的母语，而且在大部分语言上，分析的准确率都是目前全球最高的。上图展示了使用 SyntaxNet 中文分析模型对中文句子的语法分析结果。深度学习将自然语言处理问题中最基础的语法分析问题又向前推近了一大步。将这些模型开源将大大加速自然语言处理领域的研究进展。

9 月：谷歌上线基于深度学习的机器翻译

今年 9 月，谷歌正式发布了基于神经网络的机器翻译系统（Googel Neural Machine Translation system，GNMT）。该系统基于深度学习技术，可以巨幅提高翻译的准确率。与基于短语翻译的传统机器翻译算法相比，基于深度学习的翻译算法可以直接翻译一整句话，这可以大大简化翻译系统的设计，同时更高效的利用海量训练数据。根据谷歌的实验结果，在主要的语言上，基于深度学习的翻译算法可以将翻译结果的质量提高 55% 到 85%。下表对比了不同算法翻译同一句话的结果。从这句话中，我们可以直观的看到深度学习算法带来的翻译质量的提高。

不同翻译算法的翻译效果对比表

从今年 9 月开始，在谷歌翻译产品中，所有从中文到英文的翻译请求都是由基于深度学习的翻译系统完成。谷歌使用的基于深度学习的翻译系统完全是通过其开源产品 TensorFlow 实现的，该系统目前每天处理了接近两千万次翻译请求。从中文翻译成英文只是谷歌翻译支持的一个语言对，之后谷歌还会将基于深度学习的翻译算法应用到更多的语言对上。

11 月：DeepMind 和暴风雪公司开始在星际争霸 2 上开展合作

在今年的 3 月，DeepMind 团队开发的 AlphaGo 战胜人类围棋世界冠军不是人机博弈的终点，相反，这只是一个开始。DeepMind 在今年 11 月正式开启了和暴风雪游戏公司的合作，将他们下一个目标定在挑战星际争霸 2 这款即时战略游戏上。相比围棋，星际争霸 2 是一个更加开放的环境，对于深度学习系统的设计难度又有指数级的提高。首先，虽然 19×19 的围棋棋盘可能有多种不同的状态，但星际争霸 2 的状态总数几乎是无限的，再加上这款游戏对即时性的要求，所以将对整个深度学习提出更高的要求。其次，星际争霸 2 是一个信息不对称的系统，玩家只能看到自己的地图，这要求深度学习系统对“局势”做出判断。

在 BlizzCon 2016 上，暴风雪公司宣布将开发一个对深度学习系统更加友好的 API，从而正式开启与 DeepMind 团队的合作。上图的右侧展示了星际争霸 2 的正常视角，而左侧展示了提供给深度学习的视角，这样可以方便深度学习统更好的获取信息。相信在不远的将来，深度学习将被更多的应用到开放环境中。深度学习系统将在更多竞技运动中战胜人类的同时，也将在更多领域将人类从重复劳动中解放出来。

12 月：DeepMind Lab 开源

为了让深度学习系统能够自己学会如何解决复杂问题，继 OpenAI 开源了 Universe 项目之后，DeepMind 于今年 12 月也开源了 DeepMind Lab。DeepMind Lab 是一个专门为人工智能研究设计的第一人称 3D 游戏平台。在这个游戏平台中，智能体（agent）需要完成类似收集水果、走迷宫、穿越有悬崖的通道、使用发射台在空间中移动等任务。如今 DeepMind Lab 已经成为 DeepMind 内部的一个主要研究平台。

展望 2017 年的深度学习

2017 年，相信深度学习将在以下几个方面实现质的突破：

深度学习将从大学实验室和顶级 IT 公司走向大众，更多的公司将通过深度学习技术解决实际的问题。随着深度学习工具的开源以及技术的成熟，越来越多的个人和企业将享受到深度学习技术所带来的好处。
深度学习将覆盖更多的领域。从 2012 年深度学习突破了传统图像识别技术的瓶颈并取得了 ILSCRC（ImageNet Large Scale Visual Recognition Challenge）比赛的冠军开始，深度学习能被应用到了越来越多的领域。在 2017 年中，笔者相信深度学习将继续突破传统技术的瓶颈，并将被应用到基因技术、个性化医疗、自媒体、公共安全、艺术、金融等各个领域中。
随着 AlphaGo 战胜李世石，深度学习系统在封闭环境下又取得了突破性进展。在 2017 年，相信深度学习系统将更多的尝试在开放环境下的应用。无论是无人车还是智能星际争霸 2 玩家或者是 DeepMind Lab 都将是深度学习在开放环境下的尝试。

作者信息：

郑泽宇，才云科技 ( Caicloud.io ) 联合创始人、首席大数据科学家。其团队成功开发全球首个成熟的分布式 TensorFlow 深度学习平台（TensorFlow as a Service），解决了分布式 TensorFlow 上手难、管理难、监控难、上线难等问题。基于此平台，才云大数据团队为安防、电商、金融、物流等多个行业提供有针对性的人工智能解决方案。归国创业之前，郑泽宇曾任美国谷歌高级工程师。从 2013 年加入谷歌，郑泽宇作为主要技术人员参与并领导了多个大数据项目。由他提出并主导的产品聚类项目用于衔接谷歌购物和谷歌知识图谱（Knowledge Graph）数据，使得知识卡片形式的广告逐步取代传统的产品列表广告，开启了谷歌购物广告在搜索页面投递的新纪元。他于 2013 年 5 月获得美国 Carnegie Mellon University（CMU）大学计算机硕士学位，期间在顶级国际学术会议上发表数篇学术论文，并获得西贝尔奖学金 (Siebel Scholarship)。

创作场景

深度学习：2016 年大事记回放