姜文斌谈自然语言处理：将文本结构化

“我对自然语言处理将怀有终身的兴趣，自我感觉，我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法，肯定是会存在不正确或疏漏的地方，还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所姜文斌博士

在统计方法盛行的时代，大多数自然语言处理系统的性能，受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前， InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向，特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录：

InfoQ：请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌：中科院计算所自然语言研究组团队带头人是我的导师刘群教授，在刘教授不在国内的几年，我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人，员工 6 人，另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译，至今已有十多年的历史了，机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术，如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向，是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ：文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫，能否做一个简单的讲解和阐述。

姜文斌：互联网相关的大数据应用，首先需要对大数据的采集和处理。对其中文本数据的处理，离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据，进行进一步的分析和理解，需要将无结构化的文本进行“有结构化”，这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译，往文化层面说是人类沟通交流的桥梁，往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用，机器翻译的作用将是为不同语言的文本数据之间架设桥梁，支撑大数据应用中的跨语言环节。

InfoQ：大数据技术对语义分析有哪些影响？

姜文斌：大数据和语义分析，在不同的角度看其实是互为基础的。如果想做更好的大数据应用，那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析，则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度，大数据对语义分析的影响都是正面的。第一个角度，大数据为语义分析提供了更好的发挥空间；第二个角度，大数据为语义分析提供了潜在的知识宝藏。

InfoQ：就自然语言处理技术的实际落地，姜老师能否为我们列举几个实际案例。

姜文斌：自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法，当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译，虽然目前无法实现人所期望的“信达雅”，但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ：语义分析技术今后将朝哪个方向发展？

姜文斌：语义分析是自然语言处理的终极梦想之一，近来也已成为国内外学者孜孜寻求突破的重点方向。但是，要想让计算机实现自动化的语义分析，既需要更能描述语义及推理的算法，又需要大量的世界常识知识，而目前两者都很难做好。可预见的将来，我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析，从大数据中自动学习用以改进语义分析的知识，可能也是一个有希望的发展方向。

InfoQ：能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌：今年最开心的事情之一，是投往 CL 的长文被录用了。该工作专注于标注标准适应，意在能自动地适应和转换不同标注标准的语料库知识，用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题，但是仅仅关注“领域”是不够的，现实世界需要更多的适应。我们 CL 的工作关注的是标注适应，与领域适应不同，标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作，跨语言的词法和句法知识映射也已经基本成型，我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起，都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上，我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告，更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务，在个人具体的研究方向上有些力不从心，很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手，我有了更多的可支配时间。接下来，在指导学生和师弟妹研究工作的同时，也将继续亲自进行研究实践，期望我能够在机器翻译上带来突破。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

创作场景

姜文斌谈自然语言处理：将文本结构化