自然语言处理(或者叫 NLP)是通过机器来处理人类说的话、写的字,从而实现与人类的沟通交流。涉及到的方法有语义学方法和统计学方法,伴随机器学习方法来使用,从而在自动化处理中为语言建模。
好吧,这定义太枯燥啦!
实际上,自然语言处理是每一个信息密集型过程的核心问题。它为网络搜索、虚拟助手、专家推荐、现代生物学研究、情报和调查、消费者洞察等提供帮助。
世界上没有任何一家公司比谷歌公司在自然语言处理领域投入得更多(或正在投入更多)。这也就是为什么在我参与主办的“ LT-Accelerate conference”大会中,自然而然地邀请谷歌研究院的 Enrique Alfonseca 博士来做主题演讲“Language Technologies at Google”。
最近,我对 Enrique 博士就他目前从事的工作进行了一个专访。首先,先对他做个简短的介绍:
Enrique Alfonseca 在谷歌苏黎世研究院管理“自然语言理解”团队(NLU Team),并从事信息提取和文本自动摘要的应用方面的研究。总的来说,谷歌研究院 NLU Team 围绕“语义分析和表示,句法分析和实现,形态和词汇的发展”方面的方法进行指导、建立和创新。他们的工作直接影响到会话搜索在 Google Now,知识图谱,谷歌翻译,以及其他机器智能研究。
加入 NLU Team 之前,Enrique 在广告质量和搜索质量团队担任过不同的职位,从事过广告相关性和网络搜索排名方面的工作。他提出了广告质量针对性和查询扩展方面的重大改变,为广告收入带来了显著的增加。与此同时,他还是苏黎世瑞士联邦技术研究所(ETH)的导师。
上图为 Enrique Alfonseca 博士
以下是我对 Enrique Alfonseca 的专访:
Seth Grimes:您的工作包括了一系列的 NLP 主题,首先,您现在的研究领域是什么呢?
Enrique Alfonseca:现在我的团队在谷歌从事问答方面的研究,这要求我和我的同事在我们经历过的不同领域都要有所创新。就我而言,我在信息抽取、事件抽取、文本归纳和信息检索方面已经工作了很多年了,现在这些都要归属于自动问答——通过信息检索来排序以及在网络上找到相关的文章,通过信息抽取针对查询来辨识具体的、真实的答案,通过文本归纳以简洁的方式呈现给用户。
Seth Grimes:那么谷歌苏黎世研究院的同事们目前在从事什么工作呢?
Enrique Alfonseca:苏黎世的同事们目前和其它谷歌办公室的团队进行远程协作,共同开发一些产品。所以很难去定义“谷歌苏黎世研究院”和其他分公司之间的界限。但不管怎么说,有苏黎世的同事参与还是非常令人兴奋的,大家一起从事语言处理(例如文本分析、语音合成、人机对话等)、视频处理、手写识别等各个领域。
上图为谷歌地图中苏黎世研究院的快照
Seth Grimes:你们的工作只是“纯”学术研究吗?还是也会配合谷歌整体的产品路线来进行呢?
Enrique Alfonseca:2012 年,Alfred Spector, Peter Norvig 和 Slav Petrov 写了一篇文章,很好地总结了我们的研究宗旨。一方面,我们相信我们需要研究,并且说实际上我们也的确在产品团队中进行研究。我们的软件工程师中很大一部分人具有硕士或博士学历,并具有研究课题的工作经验,并且他们将自己的专业性带到了产品开发的各个方面,像广告质量、垃圾检测还有很多其它的。与此同时,我们有大量长期的项目,旨在解决谷歌公司几年前就应该解决的问题。在绝大多数项目中,我们将复杂的挑战细分成更小的问题,以便于一个人就可以处理并很快地取得进展,目的是对谷歌产品产生影响,并使得我们向着长期目标迈进的更快。
举个例子来说,当我们开始研究如何从文本中抽取事件模型时,我们脑海中还是没有一个具体的产品,尽管我们了解在新闻报道中有一个具体应用是一件多么有意义的事。我们研究了一段时间后,我们意识到:根据最近的新闻,来自网络搜索中知识图谱的信息总是与时俱进的。尽管我们还没有高精度、广覆盖率、针对新闻的深度理解模型,但是这条路线的技术已经证明对用户是有用的了。
Seth Grimes:你有没有参与过将研究创新进行产品化呢?在谷歌,这是不是从研究到产品的一条典型路线呢?
Enrique Alfonseca:是的,我们负责为我们开发的产品带来各种各样的技术。如果研究和产品分离了,那么至少两方面都会失败。
我们让研究团队不要太贴近产品需求,可能评估板和数据都不能完全代表产品的真实需求。如果研究团队从事的产品始终处于持续改进的状态,这真的是特别棘手的问题。除非直接从事产品开发本身,否则研究团队研究出的设置可能很快变得封闭,正面的结果也不会推动产品的进展。
与此同时,如果为产品带来创新的人不是研究者本人的话,很可能他们并不是很清楚新技术可以帮助我们做出正确决定,例如产品是否需要要求我们权衡一些准确度来降低计算成本。
Seth Grimes:你在“LT-Accelerate”大会上的演讲:Language Technologies at Google 原本可以占据会议的整个日程了,但是你还计划讨论信息提取和其他几个主题。你写到信息提取被证明是很难的,你提到的挑战包括了实体解析和知识库的一致性问题。实际上,首先“实体解析”和“知识库”是怎么定义的呢?
Enrique Alfonseca:对于一段文本中特定的主题来说,我们将寻找代表了主题的知识库的入口称为“实体解析”。举例来说,如果你的知识库是维基百科,一个人可能以英文文本(例如“Barack Obama”、“Barack”、“Obama”、“the president of the US”等等)在该知识库入口中进行参考。同时,“Obama”也可能指代其他任何具有相同姓氏的人,所以这就是歧义的问题。在文献中,人们也会参考具有其他相同名字的问题,就像实体连接或实体消岐。两年前,谷歌的一些同事在一个大型语料库上发布了一个大型实体解析注释库,这个库包含了 110 亿的 Freebase 话题的参考,已经被全世界的研究者开发用于信息提取了。
当我们讨论知识库时,我们指的是现实世界的结构化信息,而这个现实世界是可以让一个人通过各种应用程序针对文本进行语言分析的。典型地,这包括了主题(概念与实体)、属性、关系、关系层次和推理规则…迄今为止,人们在知识表示和人工、自动化知识获取方面已经有几十年的工作积累了,但是距离解决问题还是很远。
Seth Grimes:所以歧义、名称匹配、代词回指都是挑战的一部分,它们都是各种各样的指代。总而言之,实体解析的目前发展的最高水平是怎样的?
Enrique Alfonseca:指代的确是一个相关的问题,但我觉得它可以和实体解析一同解决。
使用的知识库和测试集不同,结果也是千变万化的。但是目前 mention-level 的标注精确度也有 80%~90% 了。绝大多数的知识库,例如 Wikipedia 和 Freebase,很大程度上都是人工创建的,没有一个具体的应用程序,当人们想用它们进行语义消岐时,就会出现问题。
Seth Grimes:知识库一致性问题主要体现在哪些方面呢?是表达的差异化、定义的不兼容、获取时间的不一致,还是仅仅是描述事实的不一致?(对于我而言,人类的知识对于这些原因来说要不一致的多)从用户的角度而言,这些不一致是如何影响谷歌的产品表现的呢?
Enrique Alfonseca:话题覆盖的不同程度,以及不同领域细节描述的不同程度,都是常见的问题。依靠应用程序,人们可能想要调整解析系统,让它变得更加偏向于解决头部实体和尾部实体的问题。一些实体可能被人为的提升,仅仅因为它们出现在知识库中一个更加密集、更加详细的部分中。在此基础上,从本体论上来说,图表被认为是更正确的,但是例外也常常发生。许多知识库仅仅是把一些不同粒度级别的数据库融合在一起,从而带来了很多校正方面的问题。Wikipedia 也包含许多“孤点”,尽管这些孤点与其他话题有很强的关联性,但也无法明确地和这些话题联系起来。
Seth Grimes:“数据修复”可不可以从某种程度上解决这个问题呢,比如说,沿着 IBM Watson 和 Wolfram Alpha 的研发思路来看?或者这些挑战可不可以在算法上解决呢?目前在科研界和工业界,除了谷歌还有谁在从事相关的研究工作?
Enrique Alfonseca:毫无疑问手动修复数据可以部分地解决这个问题。与此同时,如果我们打算照顾到长尾的历史数据,那么手动输入所有信息并且始终保持更新状态是不现实的。自动修复已有的结构化数据源,比如产品数据库、书籍、体育成绩等,也是解决方案之一。我相信把信息提取技术应用到结构化和非结构化数据源上最终是可以实现的,但并非没有挑战。我刚才提到过实体解析系统的精确度也有 80%~90% 了,这就意味着对于任何自动提取的数据来说,至少 10% 的数据会与错误的实体相关联—新的错误会在数据提取模型的旧错误基础上不断积累。聚合也可以降低错误率,但不适用于长尾历史数据。
可喜的是,这个领域目前正在不断发展—你从 ACL、EMNLP 等相关的大会上就能看到这个领域发展是非常迅速的。基于查询的语义分析来解答 Freebase 上的事实问题,怎样在知识库表示和推理任务中融合深度学习模型,实体解析中整体和局部模型的最佳组合…这些都是近几年快速发展过程中涌现出来的问题。
Seth Grimes:最后,在自然语言处理领域有什么新鲜的、振奋人心的事情吗?
Enrique Alfonseca:一方面,整个行业正在个人数字化助手领域不断进行创新:即工具可以和人类通过自然语言不断进行交互、理解我们的世界、我们的兴趣和需求、回答我们的疑问、帮助我们规划和记忆一些任务、也能帮助控制家用设备从而使我们的生活更加舒适。在自然语言处理领域仍然需要很多改善之处来将这个长期愿景变成现实,但我们已经开始看到它是如何慢慢改变我们的生活了。
另一方面,随着机器人领域的不断发展,语言和具体的实例将会不断进步,并且我们不能仅仅把语言分析放在虚拟的知识库上,而要放在一个真实的物理感受上。
本文转载自 Seth Grimes 的博客:《An Inside View of Language Technologies at Google》,原文作者已授权转载。
评论