在刚刚过去的 2018 年，人工智能领域可谓波澜壮阔，那么，在刚刚来临的 2019 年，人工智能领域有哪些突破值得人们期待呢？AI 前线今天翻译整理了 Max Grigorev 撰写的《Keeping up with AI in 2019》，他给我们娓娓道来，他个人认为人工智能和机器学习的下一个大事件将会是什么。本文最初发布于 Medium 博客，经原作者 Max Grigorev 授权由 InfoQ 中文站翻译并分享。

在过去的一年，人工智能领域涌现了大量的事件、发现和发展。很难从噪声中分辨出信号是否存在，如果存在，那么信号又说明了什么？本文试图让你明白：我将尝试提取过去一年来人工智能行业景观的一些模式。而且，如果幸运的话，我们还将会看到一些趋势如何延伸到不久的将来。

中国古籍《论语・无狸第二十一》上写道：“子曰：暗室求狸，难矣哉！奈何无狸？” 此言诚然。

看到那只猫了吗？

别搞错了：这是一篇评论文章。我并不想为这一年来的成就做一些全面的记录。我只想概述其中一些趣事。还有一个地方需要说明的是：这篇评论文章是以美国为中心的。我知道中国发生了许多有趣的事情，但不幸的是，我并不熟悉中国那边的情况。

这篇博文是写给谁看的呢？如果你还乐意阅读这篇博文的话，那么这文章可能就是为你而写的：想开阔视野的工程师；想寻找指导下一步发展方向的企业家；想寻找下一笔交易的风险投资家；或者只是一名技术啦啦队队长，迫不及待想看看这股旋风将会带领我们走向何方。

算法

毫无疑问，深度神经网络（DNN）主导了算法的话语权。当然，你会听到有人到处部署 “经典” 的机器学习模型（如梯度提升树（Gradient Boosted trees）、多臂老虎机（Multi-armed bandits）等），并声称这是所有人都需要的唯一东西。还有人宣称，深度学习正处于垂死挣扎中。即使是顶级研究人员，也在质疑某些深度神经网络架构的效率和健壮性。但无论你喜欢不喜欢，深度神经网络无处不在：从自动驾驶汽车，到自然语言系统，再到机器人，都能见到深度神经网络的影子。深度神经网络所有的飞跃都没有像自然语言处理、生成对抗网络和深度强化学习那样明显。

深度自然语言处理（Deep NLP）：BERT 等

虽然在 2018 年之前，在使用深度神经网络进行文本处理方面取得了一些突破（如 word2vec、GLOVE、基于 LSTM 的模型），但少了一个关键的概念元素：迁移学习。也就是说，在大量公开数据上训练模型，然后在使用的特定数据集上对其进行 “微调”。在计算机视觉中，使用在著名的 ImageNet 数据集上发现的模式来解决特定问题通常是解决方案的一部分。

问题是，用于迁移学习的技术并不适用于自然语言处理的问题。从某种意义上来说，像 word2vec 这样的预训练的嵌入正填补这一角色，但它们只能在单个单词级别上进行工作，无法捕获语言的高级结构。

然而，在 2018 年，情况有所变化。ELMo，语境化嵌入成为改进自然语言处理迁移学习的第一个重要的步骤。ULMFiT 甚至更进一步：由于对嵌入的语义捕获能力不满意，作者想出了一种对整个模型进行迁移学习的方法。

这个重要的家伙。

但最有趣的发展无疑是 BERT 的出现。通过让语言模型从维基百科英文版的全部文章中学习，该团队能够让 11 个自然语言处理任务中实现最先进的结果，这可相当了不起啊！更好的是，代码和预训练模型都是在线发布的，因此，你也可以将这一突破应用到自己的问题去。

生成对抗网络的许多面孔

CPU 速度不再呈指数级增长，但是关于生成对抗网络（ Generative Adversarial Networks，GAN）的学术论文的数量肯定还会继续增长。多年来，生成对抗网络一直是学术界的宠儿。然而，它在现实中的应用似乎少之又少，和论文的数量相差甚远。而且在 2018 年几乎没有什么变化。尽管如此，生成对抗网络仍然有着惊人的潜力等着人们去挖掘。

现在，出现了一种新的方法，即逐步增长的生成对抗网络的想法：让生成器在整个训练过程中逐步提高其输出的分辨率。使用这种方法的论文中，比较令人印象深刻的一篇是采用风格转移技术来生成逼真的照片。有多逼真呢？你看看下面的照片，告诉我是什么感觉。

这些照片中，哪一张是真人照片？这是个圈套问题：实际上没有一张是真人照片。

生成对抗网络是如何起作用的？为什么会真的有效呢？我们还没有对此深入了解，但已经取得了一些重要的进展：MIT 的一个团队对这一问题进行了高质量的研究。

提到另一个有趣的发展，虽然不是严格意义上的生成对抗网络，但却是一个 “对抗补丁”（Adversarial Patch）。这一想法是使用 “黑盒子”（基本上，不是查看神经网络的内部状态）和 “白盒子” 方法来制作一个 “补丁”，这将会欺骗基于卷积神经网络（CNN）的分类器。这是一个重要的结果：它引导我们更好地直观了解深度神经网络的工作方式以及我们离人类层面的概念感知还有多远。

你能从烤面包机中分辨出香蕉吗？人工智能现在还做不到呢。

我们需要强化

自 2016 年 AlphaGo 击败李世乭以来，强化学习（Reinforcement learning，RL）一直是人们关注的焦点。尽管人工智能在最后一款 “经典”游戏中占据了主导地位，但还有什么可以征服的呢？好吧，在世界上还有其他地方可以去征服！具体来说，就是电脑游戏和机器人。

对于它的训练来说，强化学习依赖于 “奖励” 信号，也就是它在最后一次尝试中表现如何的评分。电脑游戏提供了一个自然环境，与现实生活相比，这种 “奖励” 信号很容易得到。因此，强化学习研究的所有注意力都集中在教会人工智能如何进行 Atari 游戏。

谈到 DeepMind，他们的新作 AlphaStar 再次成为新闻。这款新模型击败了一名星际争霸 II（StarCraft II）的顶级职业选手。与大多数棋类游戏不同的是，星际争霸比国际象棋、围棋要复杂得多了，星际争霸有着巨大的行动空间，对玩家隐藏的关键信息。这场胜利对整个领域来说是一次非常重大的飞跃。

OpenAI，这个领域的另一个重量级玩家，或强化学习，也没有闲着。让它们声名鹊起的是 OpenAIFive，这个系统去年 8 月份在一款极其复杂的电子竞技游戏 Dota 2 中击败了 99.95% 的玩家。

尽管 OpenAI 一直关注电脑游戏，但它们并没有忽视强化学习：机器人的真正潜在应用。在现实世界中，人们给机器人的反馈可能很少，而且成本很高：基本上，你需要一个人力来照看你的 R2D2，而它正试图迈出它的 “第一步”。你需要数以百万计的数据点。为了弥补这一差距，最近的趋势是学习模拟环境，并在进入现实世界之前并行运行大量这些场景来教授机器人基本技能。OpenAI 和 Google 都在研究这种方法。

荣誉奖：Deepfakes

Deepfakes 是一种图像或视频，通常可以显示公众人物做出或说出他们从未做过的事或说过的话。它们是这样来创建的：通过在 “目标” 人物的大量镜头上训练生成对抗网络，然后生成新媒体，在其中执行所需动作。2018 年 1 月发布的名为 FakeApp 的桌面应用，可以让任何有电脑但却没有任何计算机科学知识的人创造出 deepfakes。虽然这款应用制作的视频很容易被看出不是真的，但这项技术已经取得了很大的进展，你看下面的视频就知道了。

谢谢，Obama？（视频地址：https://youtu.be/cQ54GDm1eL0）

基础设施

TensorFlow 与 PyTorch

深度学习框架有很多。这个领域是广阔的，这种表面上的多样性是有意义的。但是在实践中，最近大多数人使用的不是 TensorFlow 就是 PyTorch，如果你关注可靠性、易部署性、模型重新加载以及 SRE 通常关心的事情，那么你可能会选择 TensorFlow。如果你正写一篇研究论文，而不是在 Google 工作，那你有可能使用的是 PyTorch。

无所不在的机器学习即服务

今年，我们看到了更多的人工智能解决方案，这些方案被打包成 API，供软件工程师使用，而且不要求工程师需具有斯坦福大学的机器学习博士学位。Google Cloud 和 Azure 都改进了旧服务，并添加了新服务。AWS 机器学习服务列表开始显得令人生畏。

天呐，AWS很快就需要二级文件夹层次结构来提供服务了。

多家初创公司都向它发起了挑战，不过这股热潮已经有所降温。每家公司都承诺提升模型训练的速度、推理过程的易用性和惊人的模型性能。只需输入你的信用卡卡号，上传你的数据集，给模型一些时间来训练或微调，调用 REST（或者，对于更具前瞻性的初创公司，采用的是 GraphQL） API，就可以成为人工智能大师，而无需弄清楚 dropout 是什么。

既然有这么多的选择，为什么甚至还会有人费心自己构建模型和基础设施呢？实际上，似乎市面上的 MLaaS（ML as a service，机器学习即服务）产品在 80% 的用例表现的非常好。如果你想在剩余的 20% 也能正常工作，那你就太不走运了：不仅你不能真正选择模型，甚至你也无法控制超参数。或者，如果你需要在云计算的舒适区之外某个地方进行推理，你通常也无法做到。这绝对是一个折衷。

荣誉奖：AutoML 与 AI Hub

今年有两项特别有趣的服务都是由 Google 推出的。

首先，Google Cloud AutoML 是一套定制的自然语言处理和计算视觉模型训练产品。这是什么意思呢？AutoML 设计器通过自动微调几个预训练的并选择性能最好的设计来解决模型定制的问题。这意味着你很可能无需自己定制模型。当然，如果你想做一些真正创新的或者不同的东西，那么，这项服务就不适合你了。但是，作为一个附带的好处，Google 在大量专有数据的基础上，对它们的的模型进行了预训练。想一想那些猫咪的照片吧，那些必须比 ImageNet 概括得更好！

其次，是 AI Hub 和 TensorFlow Hub。在这两者出现之前，重用某人的模型真的是一件苦差事。GitHub 上的随机代码很少能发挥作用，文档记录也很差，而且通常都不太好处理。还有预训练的迁移学习权重…… 假设你甚至都不想让它们起作用。这正是 TF Hub 为解决而构建的问题：它是一个可靠的、精选的模型库，你可以对其进行微调或构建。只需包含几行代码，TF Hub 客户端就将从 Google 服务器中获取代码和相应的权重，看，它就可以进行工作了！AI Hub 就更进一步：它允许你共享整个机器学习的管道，而不仅仅是模型！不过，它仍然处于 alpha 测试状态，但它已经比三年前修改最新文件的随机存储库更好了，如果你能够明白我意思的话。

硬件

Nvidia

如果在 2018 年你认真地重视了机器学习，特别是深度神经网络，那么你一定在使用一个或多个 GPU。反过来看，GPU 的领袖度过了非常忙碌的一年。在加密热潮降温和随后的股价暴跌之后，Nvidia 发布了基于图灵架构的全新一代消费级的卡。2017 年发布的专业卡，基于 Volta 芯片，新卡包含了新的高速矩阵乘法硬件，称为 Tensor Cores。矩阵乘法是深度神经网络运算的核心，加快这些运算将大大提高神经网络在新 GPU 的训练速度。

为了取悦对那些又 “小” 又 “慢” 的游戏 GPU 不满的人，Nvidia 更新了它们的企业 “超级计算机”。DGX-2 就像一台有 16 只特斯拉的怪兽盒子，而 FP16 的 480 万亿次浮点运算则成为了它强有力的武器。价格也刷到了令人咋舌的 40 万美元。

自动硬件也得到了更新。Nvidia 希望，Jeston AGX Xavier 是驱动下一代自动驾驶汽车的招牌。八核心 CPU、视觉加速器、深度学习加速器 —— 这些是不断增长的自动驾驶行业所需的一切。

在一个有趣的发展中，Nvidia 为其游戏卡推出了一项基于深度神经网络的功能：深度学习超级采样（Deep Learning Super Sampling）。其想法是用来替换抗锯齿，目前主要是通过渲染分辨率高于所需（如 4 倍）的图片然后将其缩放到本机监视器的分辨率来完成。现在，Nvidia 可以让开发人员在发布游戏之前，以极高的质量训练图像转换模型。然后，使用预训练模型将游戏交付给最终用户。在游戏过程中，不会产生旧式抗锯齿的成本，而是通过该模型运行帧来提高图像的质量。

Intel

Intel 在 2018 年绝非人工智能硬件领域的开拓者。但它们似乎想要改变这一现状。

令人惊讶的是，Intel 大多数活动都发生在软件领域。Intel 正努力使它们现有的和即将推出的硬件更易于开发。考虑到这一点，它们发布了两个工具包（很让人惊讶的是，这俩相互竞争）：OpenVINO 和 nGraph。

它们更新了神经计算棒（Neural Compute Stick），这是一种小型 USB 设备，可以在任何有 USB 端口的设备上加速深度神经网络的运行，甚至是树莓派（Raspberry Pi）。

关于 Intel 独立 GPU 的传闻越来越引起人们的兴趣。小道消息越来越持久，但新设备在深度神经网络训练中的实用性如何还有待观察。真正适用于深度学习的是传闻中的两张专业深度学习卡，代号为 Spring Hill 和 Spring Crest。后者基于几年前 Intel 收购的一家初创公司 Nervana 的技术。

定制硬件的猜想

Google 推出了它们的第三代 TPU：基于 ASIC 的深度学习专用加速器，拥有惊人的 128GB 的 HMB 内存。256 个这样的设备被组装成一台性能超过 100 千万亿次运算的装置。今年，Google 不仅向全球展示了这些设备的强大功能，还在 Google Cloud 上向公众提供了 TPU。

在一个类似的举动中，但主要是针对推理应用程序，Amazon 已部署了 Aws Interentia：一种更便宜、更有效的方式来运行生产环境中的模型。

Google 还宣布了 Edge TPU：就是上面讨论的块头又大性能又凶残的那块卡的 “小弟”。它的芯片很小，一枚一美分硬币上就可以放下 10 枚这样的芯片。另外，它在实时视频上运行深度神经网络的表现已经足够好了，而且还几乎不消耗任何能量。

一个有趣的潜在新进入者是 Graphcore。这家英国公司已经筹集了令人印象深刻的 3.1 亿美元，并在 2018 年推出了它们的第一款产品：GC2 芯片。根据基准测试，GC2 在执行推理时，会消除顶级的 Nvidia 服务器 GPU 卡，同时消耗的功率显著降低。

荣誉奖：AWS Deep Racer

这是一个完全出人意料的举动，但在某种程度上反应了它们之前使用 DeepLens 的举动。Amazon 推出了一款小型自动驾驶汽车，DeepRacer 和为此而设的赛车联盟。这台售价 400 美元的汽车配备了一块 Atom 处理器、400 万像素摄像头、WiFi、几个 USB 端口以及足够的电量，可以运行几个小时。自动驾驶模型可以完全在云端中的 3D 模拟环境进行训练，然后直接部署到汽车上。如果你一直梦想制造自己的自动驾驶汽车，这是你不用开一家风投支持的公司就能实现这一梦想的机会。

下一个是什么呢？

将重点转到决策智能

现在，由于使人工智能变得有用的算法组件、基础设施和硬件比以往任何时候都更好，企业意识到开始应用人工智能的最大绊脚石是在实践方面上：你如果将人工智能从一个想法变成一个有效、安全、可靠的系统并在生产环境中运行？应用人工智能或应用机器学习，也称为决策智能，是一门为现实问题创建人工智能解决方案的科学。虽然人们在过去的研究将重点放在算法背后的科学上，但未来很可能会对决策智能领域的端到端应用方面给予更多的同等关注。

人工智能似乎创造了比它所颠覆的更多的就业机会

“人工智能将抢走我们所有的工作。” 是媒体的共同观点，也是蓝领和白领的共同恐惧。从表面上看，这似乎是合理的预测。但到目前为止，事情似乎恰恰相反。例如，有很多人通过创建标签数据集而获得报酬。

它超越了低收入国家通常的数据农场：一些应用程序，比如 levelap，允许难民通过仅使用手机标签数据就能赚钱。Harmoni 走得更远：它们甚至为难民营提供设备，以便难民们可以贡献自己的力量，并以此谋生。

在数据标签的基础上，整个行业都是通过新的人工智能技术创建的。我们现在能够做的事情，甚至在几年前都是不敢想象的，比如自动驾驶汽车或药物发现。

更多与机器学习相关的计算将出现在边缘设备

在面向数据的系统工作方式中，更多的数据通常在系统的最边缘，即摄取端（ingestion side）可用。管道的后期阶段通常是降采样或以其他方式来降低信号的保真度。另一方面，随着人工智能模型越来越复杂，在数据更多的情况下，表现越来越好。将人工智能组件放置在更靠近数据的边缘设备，这么做是否有意义呢？

让我们举一个简单的例子：想象一架高分辨率的摄像机，它能以 30 帧 / 秒的速度产生高质量的视频。处理视频的计算视觉模型在服务器上运行。摄像机将视频流式传输到服务器，但上行带宽有限，因此视频会变小并进行高度压缩。为什么不将计算机视觉模型放到摄像机上，并使用原始的视频流呢？

在这方面总是有很多坑，主要是：边缘设备上可用的算力数量和管理的复杂性（如将更新的模型推到边缘设备上）。由于专用硬件（如 Google Edge TPU、Apple Neural Engine 等）、更高效的模型和优化的软件的出现，计算限制正在被消除。通过改进机器学习框架和工具，可以不断解决管理的复杂性问题。

人工智能基础设施领域的整合

在过去的几年里，人工智能基础设施领域充满了活力：隆重宣布、巨额融资和崇高承诺。2018 年，这一领域中的竞赛似乎降温了，虽然仍有重要的新入口，但大部分贡献都是由现有的大型参与者做出的。

一种可能的解释是，我们对人工智能系统的理想基础设施的理解还不够成熟，因为问题很复杂。这需要长期的、持续的、专注的、资源充足的努力来产生一个可行的解决方案 —— 而这正是初创公司和小公司所不擅长的。如果一家初创公司 “破天荒” 解决了人工智能基础设施的问题，那将是非常令人震惊的事件。

另一方面，机器学习基础设施工程师非常少见。对一家规模更大的企业来说，一家拥有署名员工，但处境艰难的初创公司显然是有价值的收购目标。而且至少有几家企业为了胜利而参与这场竞争，它们都在构建内部和外部工具。例如，对于 AWS 和 Google Cloud，人工智能基础设施服务是一个主要卖点。

综合起来看，这一领域的大整合就成了一个合理的预测。

更多定制硬件

摩尔定律已经死去，至少对 CPU 而言是这样，而且已经死了很多年了。GPU 很快也将会遭遇类似的命运。虽然我们的模型越来越高效，但要解决一些更高级的问题，我们还需要掌握更多的算力。这可以通过分布式训练来解决，但它也有自己的限制和权衡。

此外，如果你想在资源受限的设备上运行一些较大的模型，那分布式训练就没有用了。那就用定制人工智能加速器，根据你想要或可定制的方式，你可以节省一个数量级的功耗、成本或延迟。

从某种程度来说，甚至 Nvidia 的 Tensor Cores 也是这种趋势的一个例子。在没有通用硬件的情况下，我们将会看到更多这样的硬件出现。

减少对训练数据的依赖

标签数据通常要么昂贵，要么不可访问，要么两者兼而有之。这一规则几乎没有例外。像 MNIST、ImageNet、COCO、Netflix 大奖赛和 IMDB 评论这样的开放式高质量数据集，都是令人难以置信的创新之源。但是有许多问题并没有相应的数据集来处理。虽然对研究人员来说，建立数据集并不是很好的职业发展，但能够赞助或发布数据集的大公司并不着急：它们正在建立庞大的数据集，但同时要把这些数据集藏起来。

那么，一个小型独立实体，比如初创公司或大学研究小组，如何为困难问题提供有趣的解决方案呢？通过构建越来越少依赖于监控信号，以及越来越多依赖于未标签和非结构化数据 —— 由于互联网和廉价传感器的激增，这些数据将会变得非常丰富。

这在一定程度上解释了人们对生成对抗网络、迁移学习和强化学习的兴趣激增：所有这些技术在训练数据集上的投资都更少（或者无需投资）。

所以，人工智能只是一个泡沫，对吗？

那间黑屋里有只猫吗？我想肯定有，不止一只，而是有多只猫。虽然有些猫有四条腿、尾巴和胡须，但你知道，通常情况下，有些是奇怪的野兽，而我们才刚刚看到它们的基本轮廓。

这一行业已经入人工智能 “炎炎夏日” 的第七年。在那段时间里，大量的研究工作、学术资助、风险投资、媒体关注和代码都涌入了这一领域。但人们有理由指出，人工智能的承诺仍然大部分没有实现。他们最后一次乘坐 Uber 时，车里面仍然有人类驾驶员。仍然没有机器人在早上为他们制作煎蛋。我甚至不得不自己绑鞋带，我的天哪！

然而，无数研究生和软件工程师的努力并没有白费。似乎每家大公司要么已经严重依赖于人工智能，要么计划在未来实施。知道有人在拍卖人工智能创作的艺术品吗？如果自动驾驶汽车还没出现的话，别急，它们很快就会出现啦。

原文链接：
What is the next big thing in AI and ML? – The Launchpad – Medium

更多内容，请关注AI前线

创作场景

2019 年，人工智能领域有哪些突破值得期待？