10 月 31 日，由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕，会期两天。智源大会是北京创建全球人工智能学术和创新最优生态的标志性学术活动，定位于“内行的 AI 盛会”。

在“自然语言处理专题论坛”上，来自斯坦福大学人工智能实验室的负责人：Christopher Manning分享了有关自然语言处理的最新进展。他表示：自然语言处理在近两年取得了瞩目的成就，BERT等预训练模型的出现为行业带来了新的思维方式，但是，语义理解等方面仍然存在着较为明显的短板，仍然需要行业共同努力，攻克难题。

大家下午好！我是Christopher Manning，斯坦福人工智能实验室的负责人。

在今天下午我会跟大家分享一下在自然语言处理方面最新的发展，今天我发言的题目分为两个组成部分：在第一部分会给大家总的介绍一下自然语言处理的一些发展、商业的应用、最新的进展，以及介绍一些一般性的信息；在第二个部分，我会给大家介绍一下我和我的合作者在语言模型方面所做的一些详细的工作。

首先从人讲起。人是有需求的，人们希望彼此进行沟通，要完成任务，愿意去分享我们的想法和看法。当我们谈到语言的时候，主要谈的是人和人之间的合作。斯坦福的一位心理学家Clark谈到：“我们对语言通常的误解，指语言和词和词的意思相关的，实际上并不是如此。”语言主要指的是人和人们是什么意思，我们要让机器去了解人类沟通的语言，让机器能够像人类那样流畅地进行沟通，这样的话计算机这些机器可以帮助我们去做一些事情。

如果说只是在人机之间建立紧密的联系，能够彼此了解的话，我们需要机器能够真正理解人类语言的微妙之处。我们现在有这么多强大的计算机，在手里、口袋里都有这么强大的手机，手机确实强大的微型计算机。另外一方面在我们的手机当中，如果说我们去总结这些文本也是比较难的，这些文本文字是比较小的，对年幼的人、老年人和接受过教育比较低的人，他们去用手机是不太容易的，因为他们必须要对这些信息进行总结、归纳。我们可以直接利用人类的语言进行沟通，而不是通过手机来进行沟通。

在过去的一年当中，Gartner的竞争态势预测：到2020年的时候，也就是明年有40%的用户会和一些新的应用去交互，这些新的应用会支持和人工智能进行对话，他们会支持能够与人工智能进行对话的UI。

毫无疑问，现在我们利用语音的界面，在世界各地都取得了蓬勃的发展。在美国人们发现：现在有1/3的住户都有智能语音设备，它要比手机最开始的采纳率发展的还要快。

我们现在利用语音这样的特征，因为它是最容易的交互模式。我们做了一项研究，谈到了通过语音识别和文本编辑的速度，平均来说通过语音输入的速度比键盘快三倍。

在这个领域过程当中有很多的机会，我们能够应用各种语音识别的技术作为前端技术，把它用在各种你想用的应用当中。

语音识别的技术是最近才火起来，很多人根本不了解事情发生了多大的变化，所以我会觉得有这样的可能，我们将会用一些语音的接口，确保这一方面被发挥到极致，现在还利用的不够多。我们发现有很多的语音识别的支持者说：语音识别越来越好了，我们应该支持它。但是现在语音识别的现实还是不够特别好，尤其对于一般的用户来说。

在2010年上半年，语音识别才开始发生了变化。利用深度神经网络进行语音识别，错误率降低了1/3；除此之外，我们能够不断地确保深度学习语音识别的系统错误率下降了3/4，也就是对话式的，而现在我们会发现现在语音识别的错误率越来越低了。

除此之外，我们了解到语音识别不仅仅在识别领域有作用，对整个的语音方向性发展也非常好，包括合成。有很多人想要有效合成语音，现在很多语音合成已经可以做到跟人说话的声音差不多。卷积神经网络有更好的能力，确保合成语言听起来跟人一样的流利，除此之外，相当于人和机器在对话过程当中感知的质量差不多了。

总之，前途一片大好。但是有的时候大家如果想要在手机当中用语音界面的话，你会发现一切运行的都非常有效。

最近几年，信息提取、舆情分析、回答问题、语义搜索、聊天机器人等等怎么能够解决方方面面的需求？我快速给大家介绍一下。

舆情分析主要用来分析一个人表达的是高兴的、不高兴的，或者中性的观点。几年之前研究者就会说，怎么样通过网络去打造一些树形结构，以了解具有细微差别的树形细微分析，包括句法、语义等等，我们想要诠释每一个不同的部分表达的情绪是什么。

自然语言系统主要体现在如何打造对话机器人、对话代理。某个时尚品牌打造了一个全新的自然语言对话系统，能够帮助用户选择衣服。这样的做法使订单增加了300%，并且更加有用地把他们花在广告方面的钱用在刀刃上。

最后一个应用领域，神经机器翻译。在2014年Google才真正实现了神经机器翻译，之后我的研究团队也可以做到这一点，我们取得了很强的进步，翻译质量大大提高了。我们把词的语义更好地建模，而且有更远、更大的上下文的语境，把翻译质量提高，把这个词放到这个语境当中是什么意思更准了。

除此之外，机器翻译在商用场景中也会发生影响。eBay之前的翻译是基于数据学统计进行的，之后升级成自然语言处理的系统，翻译准确度提高，销售额提升了10%，商户的材料能够让用户读懂，也就更加有购买的欲望。

接下来快速介绍一下文本编译器的预训练模型。

在过去两年，自然语言处理有了重大的突破。BERT、GPT 2.0的推出大大加速了NLP的发展。但是我们需要了解到，所有这些现代化模型都是转型的模型，他们给我们提供了去思考神经网络语言的新方式。

我们有这些语言的模型提供了做更好的语言理解的基础，可以拿更多的文本对这些词的预测进行预训练，这样的话我们就得到了神经网络初始的权重，可以了解到路径和总结、归纳自然语言的差异，接下来对这样的网络进行优调，让它能够在有限的数据量下可以去完成任务。

毫无疑问我们现在很多最新的方法，都是受益于史无前例的计算能力，使这些模型虽然发展得更好了，但是我们的环境和能源的使用并没有从中受益。我们现在有很多的学术文件，这些学术文章指出当我们去生成优质报告的时候，应该考虑一下我们用了多少计算量，我们要充分利用更加高效的预训练的模型来完成任务。

在结束之前分享一些我最后的想法：

这些模型有自我监督学习的能力，可以去识别出自己的任务，有一些词可以自动隐藏掉或将特定的词在文本当中隐藏。在自然语言处理中，这是非常高效的。看起来这样的一种方向要比常规的多任务学习更好，自然语言处理实际上是自我监督的一种学习。在其他的领域当中，比如说机器人和视觉领域当中我没有看到这样的自监督学习。

我们现在进行了自我监管的学习，获得了比较好的结果，有那么多语言的数据。看起来我们以前的语言数据的分析，比如说推演，好像是一种错误，看起来可以没有这样的一种注释就可以建造模型。语言结构是否是一个错误呢？实际上并不是如此。我们发现深度语境词的表征是从传统的关键发现者走向了发言发现设备。最近我的团队也做了一些研究，他们了解到了语言的结构，了解到了语言和句法等等，有机会希望再做进一步分享。

这就是我的介绍，谢谢！

Q&A

Q：您刚才谈到了您的新模型ELECTRA模型，听起来是一个非常高效的模型，而且有很好的计算效率。您是否可以给我们分享一下为什么这样的一个新的设计的任务，要比以前的任务更加高效？

Christopher Manning：这里有双向语境的学习，像Masked这样语言的模型，它就像一种传统的语言学习模型一样，要看语境。实际上这是涉及到数据效率的ELECTRA模型，可以对每一个词的位置来进行预测。譬如说每一个词的位置是否是被替代了，而BERT的模型只是去对一个词到七个词进行预测，看看这样的被掩盖的记号，接下来应该是如何做预测。而现在ELECTRA是双向二进制的预测任务，看起来应该在预测方面是具有更好的优势。这样二进制的任务做起来要更快一些，基本上可以获得更高的数据效率、更高的速度，这样就可以更快地去学习一个好的模型。

Q：像BERT模型对模型建构和参数进行了建模，您是否觉得有良好的方式可以把语言结构明确和大规模的预训练模型结合起来？

Christopher Manning：利用明确的语言结构，确实这是我一直以来特别感兴趣的一个话题。我觉得语言结构很有用，也被人们应用了，像BERT模型在学习语言结构方面取得了很好的进展，非常的成功。之前展示的论文里，你可以拿出一支BERT把它进行正代表，然后把它放在一个句子当中进行结构的代表，这方面已经很成熟了。我会觉得未来会有更多的灵活性，能够给大家更加有用的句法的结构，我觉得这是一个很有力量的发展方向。

Q：您觉得人类的知识在教机器了解人类语言的过程当中，实际上在一个数字驱动的时代有什么样的作用呢？

Christopher Manning：我会觉得人类的知识是超级重要的，超重要！我们会觉得人类语言的理解会吸取包罗万象的知识才行，必须要找到一种方法放在自然语言处理的系统过程当中。现在Transformer的模型根本就没有给你一个答案，它只是给你几百个词的语境，仅此而已，没有办法向上扩展。还包括联想记忆，会有一定的结构吗？没有，只是一些图形的知识。我们会觉得必须要找到另外的知识内化的方式才行，这是必要之举，只有这样才能够得到更高级别的自然语言处理。

创作场景

NLP 前景大好，但是语义理解仍有待突破