微软技术院士黄学东：掌握核心的语音语言技术，AI才有希望

看新闻很累？看技术新闻更累？试试下载 InfoQ 手机客户端，每天上下班路上听新闻，有趣还有料！

2018 年 5 月 21，微软在北京举行了 2018 微软人工智能大会。会上展示了微软在人工智能领域的技术突破以及一些产品的功能展示，微软近来在语音领域的发展，尤其让人印象深刻。InfoQ 记者在会后采访到了微软全球资深技术院士，微软云与人工智能事业部负责人黄学东博士，进一步了解到微软在 AI 领域的一些进展和规划。

黄学东博士在微软工作已经超过 25 年。25 年的时间里，黄博士负责过很多项目，但是有一件事情没变：他是微软语音技术的创始人，微软的语音识别、语音合成技术都是他一手创建出来的。

在 25 年中，黄学东博士负责过很多东西，包括新产品的研发、通信系统、Bing 搜索、搜索广告、CNTK、深度学习平台、GPU 集群，还有智能客服系统、对话系统，认知服务里面的自然语言处理的所有东西。

黄博士认为，在人工智能发展的过程中，语音和语言也是皇冠上的明珠。他说：“只有掌握了核心的语音和语言技术，人工智能才有希望，否则其它都是在‘忽悠’。”

黄博士告诉 InfoQ，目前在“感知”方面，计算机视觉和语音识别进步都很大。在“认知”方面，这个进步还是有限的。微软机器翻译第一次达到了媲美人的水平，这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西，而现在，计算机第一次在翻译质量上超过专业人士的水平，黄博士说：这对人类文明的进展来说是很震撼的。

InfoQ：谈到语音识别、自然语言处理，大家更多会想到具体的产品，比如音箱或者一个 APP。您认为这个东西就要变成一个大家可以消费的产品吗？这个产品会是什么样的业态，目前是不是还处于教育市场得阶段？未来会什么样？

黄学东：这个问题很好。语音技术是一个赋能的技术，所有的开发者都可以把这个技术拿过来，实现他自己想要做的东西，比如智能音箱，因为现在远场语音识别能力很强了，所以音箱火得不能再火了——“百箱大战”——今年 CES 展上基本上就只有两个东西，一个是自动驾驶，另外一个就是音箱，基本上可以占 CES 展台 80% 的东西。音箱出现很重要的一个原因就是语音识别技术进步到了这个水平，基本上可用了，就是远场交互都可用了。

再说回来，今年我觉得最热的是翻译器，尤其对中国人。因为老美出去走遍世界，他讲英文，好像别人都懂，中国人出去一讲中文，别人不知道什么意思。在中国每年有 1.2 亿的游客出去。现在我们跟小米生态链企业香蕉出行合作推出的魔芋翻译器，真是物美价廉，基本上只要目前市场上翻译器 1/10 的价格。它刚出来不到一个月，销售基本遍布全国各大城市，而且常常是脱销状态。

还有一个有趣的事情。出国到海外就会发现，国内的云服务在国外很难用，在国内做的演示很棒，但出了国云服务就没法用。香蕉出行的情况是倒过来的，因为我们的云服务是真正覆盖全球得，它在国外的表现非常好，大家用起来用户口碑很好，上市不到一个月现在是卖到完全脱销。这就是微软人工智能和中国企业结合得非常好的一个案例，我们非常高兴，小米也非常高兴。雷军想要给他的领导班子每人送一台——对不起缺货，这是真的故事。

InfoQ：在您看来，从技术上说翻译特别是中英翻译，是不是已经可以实现大规模产业化了？

黄学东：技术上已经是了。今天在我的演讲中演示了一个表，微软最新的机器翻译系统已经达到了 69 分。机器翻译这个东西不像语音识别是一对一，只有唯一的答案，机器翻译是多对多的，每个答案都可能是准确的，所以在评价机器翻译的时候，现在只能靠人来评，当然老师也很严格，100 和 0 之间相差很大。我们根据人来评的话，其实现有的商用系统像微软和谷歌的，在标准的测试集上分别在 56 分、54 分左右，中国企业的研发能力也很强，像搜狗公司，在微软推出最新突破之前有最优秀的系统，达到了 62 分的水平。

InfoQ：您在演讲中提到微软会跟中国移动去合作，这一部分有什么可以分享的？定制化云服务感觉上只是针对声调的不同进行区分，在人工智能上有什么样的差异化？

黄学东：我今天讲的内容非常多，我大概梳理一下。今天讲了一个事情是中国移动和微软正在合作，用微软的语音识别技术帮助他们解决客服中心的一些技术问题，这是一个非常了不起的事。因为中移动是全球最大的电信运营商，他们现在用最优秀的技术满足他们的客户需求，这本身就是一个有意义的创举。微软公司的人工智能技术、语音识别技术和全球最大的电信商合作，解决用户的实际工程需求。这是一个中美两国合作，让用户更加满意的一个非常好的案例。

第二，微软最近推出了很多全新的产品和服务，包括统一的语音识别 API，我们可量身定制所有的语音识别、语音合成、唤醒词和机器翻译系统。

第三，PMA，我们有一个普林斯顿计划，我们提供的麦克风阵列在全球都是具有领导性的。微软最新推出来的 PMA 麦克风阵列绝对是“黑科技”，绝对是“耳听八方”，我把它称为是“全武功”的会议人工智能系统。这个创新是基于微软黑科技的语音识别 DDK 设备开发套件，是我们跟中国本土的 Roobo 公司联合推出来的，也是微软和中国公司合作以高新技术领先世界新潮流的最好的案子。微软不仅仅是翻译器和中国本土公司合作，像这样先进的麦克风阵列也是和中国本土公司合作开发的。

InfoQ：您说语音识别是开启人工智能的重要一步，这是因为您是语音识别面的专家，还是说它的确对人工智能行业是至关重要的？

黄学东：我觉得大家应该有这样的共识。计算机视觉、计算机语言识别是“感知”智能，感知智能因为深度学习、神经网络实现了突破了，大家都非常激动。“认知”是包括推理、理解上下文、自然语言处理，这方面的突破还有待大家的努力。而机器翻译，则在感知和认知之间的一个历史性的里程碑。

让我们想象一下，如果有一天，机器可以理解我们所有的文本，了解上下文，有推理的功能，想象一下后果：这意味着机器可以 24 小时阅读所有的新闻、所有出版过的文件、著作、科学文献，它可以上知天文下知地理，包括生物，这是不是比爱因斯坦还牛？爱因斯坦也是只懂物理——这才是真正的“强人工智能”的来临。

强人工智能一定是由自然语言理解、感知驱动的，让计算机能达到人的知识获取能力，可以通过阅读自动获取知识，这是不是很厉害？过去 5000 年人类的所有文献，它都可以读得一个字不忘，还有超过人类得深入的理解。像我今天引用《封神演义》里的一句：眼观六路、耳听八方，其实《封神演义》里面讲的不是六路，是眼观四路、耳听八方。如果计算机在自然语言处理上进步了，就可以说黄学东在会上讲的眼观六方，不对，《封神演义》讲的是四方，不是六方。

InfoQ：产品路线图得下一步是哪些语种或者小语种？还有哪些语言已经进入识别了？为什么你会在这个上面有执念呢？因为你学了这个专业还是因为其他？

黄学东：我自己是一个有情怀的，这个情怀是什么呢？在清华大学做研究生的时候，我就想让语言的障碍不是成为我们交流的障碍，我觉得这件事情太有意义。

我在爱丁堡大学念的博士的时候读了达尔文得“进化论”，达尔文也曾在爱丁堡大学念医学，后来转到剑桥大学去念神学，毕业以后发表了进化论，跟神学完全决裂，这是很有意思的一件事。

我意识到人通过语言可以自然交流、相互合作，像我们来自五湖四海，今天可以组织起来在这个地方见面，都是因为有了语言。语言是促进人类进化得最重要的因素，就像我今天讲的，在人类进化的长河中，语音和语言是最重要的因素，有同样的重要性。我在清华上学的时候看得没有那么远，但是我当时就觉得语音和语言太重要了，至少我自己 30 年如一日，从没有放弃过这份情怀。

InfoQ：机器翻译在某种程度上已经人类的翻译水平差不多了，是不是意味着我们以后不用人工翻译了？是不是翻译人员就被淘汰了？您怎么看待人工智能给人类带来的威胁？

黄学东：我觉得这个事情不会，机器翻译出错误会出得比人类更离谱。我觉得最好的方法就是在机器转录翻译的时候，有人在旁边看着，有错误就给纠正一下，人和机器协同工作，这是最好的模式。

机器出错是出在什么地方呢？冷僻的词、新的概念。人可以实时学习冷僻的词和新的概念，这里的信息量非常大，人类马上可以自适应。比如我讲了一个很怪的词，大家一听觉得有意思，马上神经就高度紧张，注意力高度集中了，马上可以举一反三。而机器就惨了，怎么样处理没有见过的事情，这才是真的智能，也是人类智能和机器智能最大的区别。

跟人相比，不管是图像识别还是语音识别、机器翻译，机器其实都笨得要死，因为它不懂得举一不反三——孔子说过“举一不反三，不可教也”。

InfoQ：文字工作者在翻译的时候会讲究“信达雅”，从微软的机器翻译的水平讲，现在能够达到信达雅？还是离信还有几步的距离？

黄学东：如果是没有突发事件，那么是基本可信、基本可达、基本还算比较雅。

如果出现突发事件，就举一不可反三，这是人工智能和人的智能最大的差距。

我们说一个人灵不灵，主要看他处理突发事件时的决策怎么样，就能说明是不是真的行。一般的人处理常见的事情都可以，没问题，就像人工智能一样。而聪明的人，在面对突发事情、小概率事件，或者很困难的时候，可以做出正确的决策。现在人工智能和人类智能最大的差别，就是处理突发事件的能力差得远，这也就是为什么认知非常重要。认知是解决推理、解决小概率事件、获取知识、聚一反三，这个过程的最重要的一个代表和体现。

InfoQ：您反而觉得机会更多，而不会说一些工作被 AI 取代使机会变少？

黄学东：这就像当年在英国的时候汽车刚刚发明出来，被要求速度不能超过马车的速度，后来马车夫没有了，但是汽车工业造就了多少新的机会呢？同样的道理，人工智能会给我们的生产力赋能，变的更快、更好，让大家有更多的时间去做自己想要做的事情，我是非常乐观。

当年马车起主导作用的时候，你可以想象会有那么大的汽车工业吗？像钢铁、发动机、石油，这造就了多少就业机会。

AI 至少提高了工作的质量，有很多这样的案例。人以前要做很多重复性的工作，人和 AI 协同工作，就能提高我们的生产力，提高人的工作质量，这是人工智能和人协同工作，有很多这样的例子。

InfoQ：您会觉得通过语音识别竞赛带来差异化，使大家技术上差异越来越少吗？未来大家在竞争的话，是不是重点在结合各家整体的解决方案，比如说微软跟 Azure 结合，其他各家与自己的一些技术的结合上？

黄学东：比如在 Switchboard 上，微软是第一个达到了媲美人类水平的，这说明在研究测试级上，微软的技术是很强大的。但那个还不够，因为训练数据是固定的，计算资源是无限的。在做产品的过程中，倒过来了，训练数据可以无限，计算资源有限，因此看问题的侧重点不太一样。还有落地场景的事情，像微软“耳听八方”的会议系统，这个是我们自己用计算机视觉和语言识别打造的一套新的解决方案，前人没有想到，也没有做到的事。

InfoQ：大家会结合各自的定位把产品差异化做竞争，之前大家纯技术、纯研究方面的东西可能现在看差异化不会太明显吗?

黄学东：技术实力还是非常重要，人工智能会议系统它的技术要求远远超越了两个人的对话。真是像《封神演义》讲的耳听八方，很难的，根本顾不过来。我们的系统，它上面有一个 360 度的摄像头，就像九头鸟一样全看见了，会议室的东西都尽收眼底，下面还有 7 个麦克风的麦克风阵列，用的就是 Speech Device SDK。看起来像“黑塔”的那个东西就是用微软现有的云，加上现有的 DDK 打造的一个人工智能落地的实例。微软的服务都在，但别人没有打造出这样的一套东西，我提供了开发工具，但是要打造一套像 PPT 这样的应用程序，还是需要很多的工作。

创作场景

微软技术院士黄学东：掌握核心的语音语言技术，AI 才有希望