QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

姜文斌谈自然语言处理:将文本结构化

  • 2014-06-22
  • 本文字数:2009 字

    阅读完需:约 7 分钟

“我对自然语言处理将怀有终身的兴趣,自我感觉,我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法,肯定是会存在不正确或疏漏的地方,还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所 姜文斌博士

在统计方法盛行的时代,大多数自然语言处理系统的性能,受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前, InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向,特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录:

InfoQ:请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌:中科院计算所自然语言研究组团队带头人是我的导师刘群教授,在刘教授不在国内的几年,我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人,员工 6 人,另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译,至今已有十多年的历史了,机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术,如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向,是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ:文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫,能否做一个简单的讲解和阐述。

姜文斌:互联网相关的大数据应用,首先需要对大数据的采集和处理。对其中文本数据的处理,离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据,进行进一步的分析和理解,需要将无结构化的文本进行“有结构化”,这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译,往文化层面说是人类沟通交流的桥梁,往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用,机器翻译的作用将是为不同语言的文本数据之间架设桥梁,支撑大数据应用中的跨语言环节。

InfoQ大数据技术对语义分析有哪些影响?

姜文斌:大数据和语义分析,在不同的角度看其实是互为基础的。如果想做更好的大数据应用,那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析,则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度,大数据对语义分析的影响都是正面的。第一个角度,大数据为语义分析提供了更好的发挥空间;第二个角度,大数据为语义分析提供了潜在的知识宝藏。

InfoQ:就自然语言处理技术的实际落地,姜老师能否为我们列举几个实际案例。

姜文斌:自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法,当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译,虽然目前无法实现人所期望的“信达雅”,但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ:语义分析技术今后将朝哪个方向发展?

姜文斌:语义分析是自然语言处理的终极梦想之一,近来也已成为国内外学者孜孜寻求突破的重点方向。但是,要想让计算机实现自动化的语义分析,既需要更能描述语义及推理的算法,又需要大量的世界常识知识,而目前两者都很难做好。可预见的将来,我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析,从大数据中自动学习用以改进语义分析的知识,可能也是一个有希望的发展方向。

InfoQ能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌:今年最开心的事情之一,是投往 CL 的长文被录用了。该工作专注于标注标准适应,意在能自动地适应和转换不同标注标准的语料库知识,用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题,但是仅仅关注“领域”是不够的,现实世界需要更多的适应。我们 CL 的工作关注的是标注适应,与领域适应不同,标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作,跨语言的词法和句法知识映射也已经基本成型,我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起,都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上,我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告,更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务,在个人具体的研究方向上有些力不从心,很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手,我有了更多的可支配时间。接下来,在指导学生和师弟妹研究工作的同时,也将继续亲自进行研究实践,期望我能够在机器翻译上带来突破。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-22 23:239420

评论

发布
暂无评论
发现更多内容

Linux基金会唯一官方微服务培训课程免费学 | 快速构建稳定可靠的微服务应用

TARS基金会

开源 微服务 培训 Linux基金会 TARS

随想之UI+API

云杉

别闹,我用1个BTC居然买不了一个爱马仕包

猫Buboo

区块链+

这是一个奇怪的因果关系

陈磊@Criss

摄影

我是如何从0到1完成一个简单的中间件(1)

sinsy

Java 中间件

第六周学习总结

Vincent

极客时间 极客大学

最新:央行副行长详解数字人民币,信息量巨大!

CECBC

人民币 数字人民币

查找数组中最大值的5种方法!(动图演示)

王磊

Java 面试

iPad Air把它大哥iPad Pro按在地上摩擦

徐说科技

切片真的是引用类型嘛

Gopher指北

Go 语言

数字资产会成为人类最大的资产

CECBC

数字资产 数字化时代 孙正义

第六周作业

Vincent

极客时间 极客大学

再深入一点|binlog和relay-log到底长啥样?

艾小仙

Java MySQL 数据库 架构设计

【获奖名单公布】程序员摇身一变摄影师,属于技术人的摄影展示大赛

InfoQ写作社区官方

写作平台 征稿 热门活动

anyRTC语音开黑demo正式上线

anyRTC开发者

音视频 WebRTC 直播 RTC

anyRTC RTSP转WebRTC方案

anyRTC开发者

音视频 WebRTC 直播 RTC 安卓

java安全编码指南之:字符串和编码

程序那些事

安全编码指南 java安全编码 java安全编码指南

追光逐影:焦距与镜头语言

北风

创作 生活 摄影 光影 摄影征文

数字货币交易所源码开发,区块链交易系统搭建服务商

13530558032

oeasy 教您玩转 linux 010215 随机谚语 fortune

o

关于数据存储引擎结构,没有比这篇更详细的

华为云开发者联盟

数据库 nosql 存储

flutter之踩坑的日子(2)

霜蓝手环

小程序flutter, 跨平台 Flutter Android Apk

“度拉拉”升职记:中国语音助手的成长史

脑极体

Golang领域模型-资源库

奔奔奔跑

微服务 领域驱动设计 DDD Go 语言

分库分表中间件的高可用实践

无毁的湖光

MySQL TCP 高可用 分库分表 高性能

MySQL数据库技术与应用:数据查询

华为云开发者联盟

MySQL 数据库 存储

互联网只改变了商业的一部分,区块链将从根本上重构商业

CECBC

区块链 去中心化 互联网金融

111

不在调上

血的教训!千万别在生产使用这些 redis 指令

楼下小黑哥

Java redis 生产事故

对比 Redis 中 RDB 和 AOF 持久化

超超不会飞

Spring 5 中文解析数据存储篇-Spring框架的事物支持模型的优势

青年IT男

Spring5 数据存储

姜文斌谈自然语言处理:将文本结构化_语言 & 开发_景琦_InfoQ精选文章