本文为 Robin.ly 授权转载，文章版权归原作者所有，转载请联系原作者。

本期Robin.ly CVPR 2019 专题访谈特邀斯坦福大学AI实验室主任、人工智能和计算语言学领域的权威专家Christopher Manning教授，在美国长滩CVPR大会现场分享人工智能研究的最新趋势和挑战，以及他参加本次大会的思考。

Christopher Manning是斯坦福大学计算机与语言学教授，也是将深度学习应用于自然语言处理领域的领军者。他在斯坦福大学获得博士学位之后，曾先后执教于卡耐基梅隆大学和悉尼大学。Manning教授的研究专注于利用机器学习方法处理计算语言学问题，以使计算机能够智能处理、理解并生成人类语言。Manning教授是ACM Fellow，AAAI Fellow 和ACL Fellow，他的多部著作，如《统计自然语言处理基础》、《信息检索导论》等成为经典教材。

今年是Manning教授第一次参加CVPR大会。他受邀作为主讲嘉宾参加了“视觉问题问答”研讨会。他指导的论文“GQA, a new dataset for compositional question answering over real-world images”也在大会发表。

深度学习

主持人：Chris，很高兴能在CVPR邀请到你参加我们的访谈！今天你参加了哪些讨论？

Chris Manning:

谢谢！我今天参加了视觉问答研讨会，听到了一些非常有意思的报告，还参与了很多互动环节。参加问答研讨会的都是这个领域中非常优秀研究人员，我很高兴成为这个群体中的一员，也让我受益匪浅。

主持人：你最开始是一名计算语言学研究员，后来在自然语言处理和机器学习方面获得了非常多的成就。能简要介绍一下您在深度学习领域的一些经历吗？

Chris Manning:

好的。我的年纪比较大了，见证了神经网络的第二次浪潮，即80年代末到90年代初的并行分布式处理或连接主义时代。那个时候我还是斯坦福大学的研究生，大卫·鲁姆哈特（David Rumelhart）还在斯坦福大学任教，我参加了他的神经网络课程，对这个领域有了一点了解，但并没有把它作为我的研究领域。在过去的十几年，我渐渐对深度学习产生了兴趣。当时我的办公室就在吴恩达（Andrew Ng）的隔壁，而Andrew非常热衷于利用这方面的技术来促进通用认知的发展。我受到了他的影响，开始关注深度学习领域的研究。

Manning教授（图片来源：Stanford University School of Engineering）

主持人：从学术界的角度来看，你觉得当时面临的最大的挑战是什么？

Chris Manning：

我不确定我跟学术界的想法是否一致。但对我来说，这个问题可以追溯到上世纪80年代，关于将神经网络作为人类语言模型的是否有效存在很多争议。我们一直没有搞清楚人类语言的成分结构，单词如何组成短语，短语如何组成从句，从句又如何组成完整的句子。因为人们似乎没有任何方法可以很好地模拟这种人类语言的层次递归结构，80年代包含全连接层的扁平神经网络架构在本世纪头十年再次引起了人们的关注，所以我最初非常热衷于这方面的研究。我于2009年至2013年间在斯坦福大学所完成的工作，很多都是跟Richard Socher合作的，主要目的就是了解如何构建树形结构和递归神经网络，并深入探索这些概念。

从研究到产品

主持人：与此同时，我们也看到了行业技术的发展，诞生了Alexa之类的语音助手产品。你如何看待从学术研究到产品开发的转化趋势？

Chris Manning:

像Alexa和Siri那样的对话助手对自然语言处理产生了巨大的影响。最开始这些变化跟深度学习和自然语言处理关系不大，因为基本上用的都是人工编辑的脚本。所以这些积极的影响是得益于基于规则的自然语言处理的再度出现，跟机器学习和我从1995年到2010年主要研究的那种概率自然语言处理关系都不是很大。随着时间推移，人们对这个领域的兴趣日渐浓厚，我自己也开始研究如何构建基于神经网络的对话助手。我认为这是一个值得进一步推进的领域，不过难度很高。

上周末，在长滩举行了ICML机器学习会议，来自微软的几位研究人员演示了如何打造对话助手。他们的观点是，人们仍然无法训练端到端的完善的神经网络对话助手，也不应该指望它们能够正常工作。事实上，所有已经部署在商业领域的系统都是机器学习和神经网络部件相结合的产物，许多功能仍然需要手工编码。

斯坦福AI实验室

主持人：

你现在负责管理斯坦福大学人工智能实验室。考虑到人工智能的广度和深度，能否介绍一下该实验室当前的研究重点？

Chris Manning:

斯坦福AI实验室实际上是一个结构相当松散的部门，并不需要一个负责人来告诉各个实验室要做什么样的研究。各个下属实验室的负责人可以自行决定研究课题。

但是你仍然可以看到明显的趋势。虽然有少数几个方向仍然在使用手动搭建的控制系统进行机器人操作，但是深度学习的影响，甚至整个机器学习领域的影响是普遍存在的，几乎覆盖了所有领域。自然语言处理和视觉领域更是备受关注，几乎成为了斯坦福人工智能实验室的主要研究领域，这种情况跟十年前相比已经大不相同。

在过去几年中发生的另一个积极的变化是，我们聘请了几位顶尖的机器人专家，开展了一些机器人相关的研究项目。机器学习依然是实验室的重中之重，其中一些应用包括可持续计算之类特定的问题，以及强化学习在教育领域的应用等等。总的来说研究方向涉猎很广，五花八门。

斯坦福大学计算机系

计算机视觉的趋势和挑战

主持人：我们来聊一聊计算机视觉。这个领域一直在不断发展、进步和成熟，那么你认为计算机视觉未来的趋势和挑战是什么？

Chris Manning:

没错，计算机视觉在近些年取得了巨大的进步。这个领域在十年前只能简单的识别人脸，功能远远没有现在这么强大；然而现在，计算机视觉已经可以在很多领域发挥重要作用，尽管很多应用还比较初级。现在这个领域已经出现了巨大的商业机会，在医疗领域有着大规模的应用。比如我们现在可以收集很多医学影像数据，建立深度学习系统，可以达到甚至超过人类医生的水准。从这个角度来说是一个很大进步。

但从某种意义上说，计算机视觉领域的大多数应用仍然相对比较初级。我们还需要完成更多的解释性任务，可以称之为更高级别的计算机视觉，也就是看到一个场景，可以理解其中所发生的事情。比如如果有人经过这里，就会知道有人在接受采访。但是如果你把这个相同的场景展示给计算机视觉系统，它会识别出有两个人、有泛光灯、有摄像机，可能会知道这两个人正在互相看着对方，但却无法理解这个场景代表了一个什么样的事件。因此，我认为推动更高语义层面的理解是视觉领域一个重要前沿课题。在这个层面，自然语言处理和视觉的关系更加紧密，无论是从文本还是图像入手，要解决的问题都变得更加相似。我认为另一个重要领域是对世界上正在发生的事情有一个更全面的理解，将我们看到的二维场景以及三维模型联系起来，可以帮助我们预测未来会发生什么。

Manning教授在CVPR2019接受Robin.ly专访

主持人：我最近在意大利的一家博物馆看到，他们可以让访客跟史前时代的立体景象进行互动，这样的进步让我觉得非常不可思议。自动驾驶领域在过去的几年中取得的进展也非常惊人，你对此有什么看法？

Chris Manning:

这显然是一个巨大的进步，让人们看到了大范围的商业应用。但我们仍需要保持一定的谨慎态度。一方面，要认可所取得的巨大进步，事情正在往好的方向发展，像Waymo那样的自动驾驶汽已经可以在湾区的道路上进行测试。另一方面，它也让我们认识到现实世界存在很多特殊情况。人类对处理特殊的情况经验很丰富，因为我们对周围的环境非常熟悉，了解很多常识。但是自动驾驶系统还远没有达到这样的程度，它们非常善于在一切正常的情况下沿着车道行驶，对一些特殊情况却无法做出判断。比如路中央有一个人在挥舞旗子，车辆就很难判断这个人到底是在干什么。

自然语言处理的技术挑战

主持人：我接下来有一些技术性的问题。如您所知，许多基于特征的方法中会使用句法解析。现在的趋势是，句法解析在特征工程中的使用得越来越少了，更多时候是用在端到端系统中。那么你如何看待句法解析研究的未来？

Chris Manning:

这个问题问得很好，这种说法也是正确的。纵观自然语言处理的历史，句法解析被视为基础性的工作，有助于后续的研发，比如打造机器翻译工具。包括我在内的许多自然语言处理领域的研究人员花了很多时间，想要找到更好的句法解析方法。实际上，针对当前的很多任务，句法解析的效果不一定是最好的。目前，人们已经用最新的深度学习系统完成了一些任务，无论是问答系统，还是机器翻译。如果你正在训练大型神经网络模型，其中并不包括明确的句法结构训练，但是这样的模型所呈现的数据仍然比我们之前获得的任何结果都要好。这样一来，你可能会觉得所有关于句法解析的研究可能都是有误导性的。

我对此有几点想法。一个是，如果你有一个包含大量数据的任务，你已经可以在没有明确句法结构信息的情况下端到端的训练模型了，还能得到比较好的结果。为什么这种方法能够获得比较好的结果？事实上，我最近与一名学生John Hewitt一起研究了一些深层语境语言模型，如ELMo（“嵌入语言模型”）和BERT，它们都是基于大量文本数据进行训练的，其中不涉及任何句法结构。而事实上，我们已经能够确定，像ELMo和BERT这样的模型正在学习句法结构，它们接受了数十亿字的文本训练，已经开始识别模式并理解其功能，并自动进行归纳。因此从某种意义上说，这些模型证明了语言学家对句法的看法基本上是正确的：识别结构信号的类型并理解什么是关系从句对于能够用语言进行预测和让这些模型学习句法结构是非常重要的。从某种意义上说，这是一种进步，因为我们使用机器学习能够获得更好的结果，并且最终可能会得到比人类的手动添加符号结构更丰富的表现方式。

但另一方面，这一切的前提是拥有大量文本。我认为在很多情况下，你拥有的数据事实上很有限，无法进行端到端训练，而具有句法结构是一个非常好的先决条件。例如今天我听了一个视觉问答报告，他们将视觉场景图与句子结构中的非独立部分进行了匹配，展示了如何为视觉问答任务提供辅助信息。几乎在任何训练数据量有限的地方，你都可以利用句子结构以及单词相互关联的额外信息来得到重要的结论。所以我认为在很多情况下，明确的规则和句法结构仍然适用。

主持人：能不能谈一谈我们应该如何将知识库整合到基于神经网络的自然语言系统中？

Chris Manning:

这也是一个很好的问题。我认为这个问题还没有完全解决。在我看来一个比较简单的答案，也是目前最好的答案就是：就像我们在做其他任务时可以学习和参考一些文本数据一样，我们也可以在做其他任务时试图构建一个知识库。目前，实现这一目标的最简单的方法是将注意力机制引入到知识库元素中。可以说注意力机制模式是自然语言处理中非常成功的技术，已经被用在在新一代的神经网络翻译系统中。对于诸如推理和获取知识之类的工作，使用注意力机制就是比较好的方法。很多人在试图打造类似键值神经网络，用一个键值信息来查看知识库中的内容，并将该内容传递回神经网络。虽然我们始终感觉应该有其他方法可以更直接的获取知识，但目前这是获得神经网络所能学习或参考的外部知识最成功的方法了。

自然语言处理的商业化进程

主持人：下一个问题是，你认为自然语言处理中哪些成果比较容易商业化？

Chris Manning:

我认为这很大程度上取决于你所处的领域和你的目标。比如，最近神经网络机器翻译已经取得了巨大的成功，但只有一小部分公司对这一成果感兴趣。我认为对于更一般的应用实例，最受欢迎的应该是对话助手。因为对于许多公司来说，吸引新客户，或者与已有的客户进行互动交流蕴含着巨大的机会，但是从事这些工作的人力还比较有限。如果这些工作可以通过对话助手完成，那么从吸引潜在客户到客服工作就能实现一个巨大的进步。这样的工作很有意义，但跟人类相比，打造成功的、具备丰富的专业知识的对话助手难度很大。从另一个角度来看，其中涉及到的有很多问题都比较简单，或者会重复性很高。因此，只要让一个对话助手能处理80％的简单问题，或者吸引一些新的客户，就能够满足大部分要求，并且适用于各个领域的公司。

主持人：现实中有没有结合了计算机视觉和自然语言处理的应用场景让您觉得比较有意思的？

Chris Manning:

坦率的说，目前能够实现商业化的技术并不多，能够将二者结合产生商业效益的就更少了。但是实际上这样的机会还是有的，比如描述用手机摄像头拍摄到的场景能够帮助盲人和游客了解身处的环境。不过目前我还没看到充分结合了两种技术的比较成功的应用场景。

查看原文：

https://www.robinly.info/post/cvpr-2019-ai-talk-christopher-manning-professor-director-stanford-ai-lab

创作场景

斯坦福 AI Lab 主任 Chris Manning：人工智能研究的最新趋势和挑战