写点什么

姜文斌谈自然语言处理:将文本结构化

  • 2014-06-22
  • 本文字数:2009 字

    阅读完需:约 7 分钟

“我对自然语言处理将怀有终身的兴趣,自我感觉,我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法,肯定是会存在不正确或疏漏的地方,还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所 姜文斌博士

在统计方法盛行的时代,大多数自然语言处理系统的性能,受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前, InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向,特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录:

InfoQ:请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌:中科院计算所自然语言研究组团队带头人是我的导师刘群教授,在刘教授不在国内的几年,我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人,员工 6 人,另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译,至今已有十多年的历史了,机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术,如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向,是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ:文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫,能否做一个简单的讲解和阐述。

姜文斌:互联网相关的大数据应用,首先需要对大数据的采集和处理。对其中文本数据的处理,离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据,进行进一步的分析和理解,需要将无结构化的文本进行“有结构化”,这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译,往文化层面说是人类沟通交流的桥梁,往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用,机器翻译的作用将是为不同语言的文本数据之间架设桥梁,支撑大数据应用中的跨语言环节。

InfoQ大数据技术对语义分析有哪些影响?

姜文斌:大数据和语义分析,在不同的角度看其实是互为基础的。如果想做更好的大数据应用,那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析,则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度,大数据对语义分析的影响都是正面的。第一个角度,大数据为语义分析提供了更好的发挥空间;第二个角度,大数据为语义分析提供了潜在的知识宝藏。

InfoQ:就自然语言处理技术的实际落地,姜老师能否为我们列举几个实际案例。

姜文斌:自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法,当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译,虽然目前无法实现人所期望的“信达雅”,但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ:语义分析技术今后将朝哪个方向发展?

姜文斌:语义分析是自然语言处理的终极梦想之一,近来也已成为国内外学者孜孜寻求突破的重点方向。但是,要想让计算机实现自动化的语义分析,既需要更能描述语义及推理的算法,又需要大量的世界常识知识,而目前两者都很难做好。可预见的将来,我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析,从大数据中自动学习用以改进语义分析的知识,可能也是一个有希望的发展方向。

InfoQ能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌:今年最开心的事情之一,是投往 CL 的长文被录用了。该工作专注于标注标准适应,意在能自动地适应和转换不同标注标准的语料库知识,用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题,但是仅仅关注“领域”是不够的,现实世界需要更多的适应。我们 CL 的工作关注的是标注适应,与领域适应不同,标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作,跨语言的词法和句法知识映射也已经基本成型,我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起,都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上,我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告,更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务,在个人具体的研究方向上有些力不从心,很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手,我有了更多的可支配时间。接下来,在指导学生和师弟妹研究工作的同时,也将继续亲自进行研究实践,期望我能够在机器翻译上带来突破。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-22 23:239300

评论

发布
暂无评论
发现更多内容

为啥JS/TS里都会有"use strict"

华为云开发者联盟

js ts 严格模式 use strcit 使用严格

十年磨一剑,墨菲安全正式发布开源项目murphysec

墨菲安全

开源安全

净推荐值(NPS)完整行动指南

龙国富

客户体验 NPS 净推荐值 北极星指标 客户忠诚度

CPUvsGPU:谁才是游戏和视频编辑的核心?

Finovy Cloud

人工智能 gpu cpu

《手写Mybatis》第4章:Mapper XML的解析和注册使用

小傅哥

小傅哥 mybatis 工厂模式 建造者

都2022年了,HDFS为何还如此能战

华为云开发者联盟

大数据 hadoop hdfs 分布式文件系统 大数据存储

不写代码,带你徒手开发一个健康打卡应用

华为云开发者联盟

无代码 AppCube 应用开发 健康打卡 可视化编排

spring-cloud 链路追踪

Rubble

4月日更

B 端 SaaS 产品自动化事件设计 - 规则表达式

龙国富

自动化 SaaS 正则 B端 规则表达式

13个问题帮你选型 “客户体验管理SaaS平台”

龙国富

SaaS 选型 客户体验 CEM CXM

企业知识管理的解决方案

小炮

知识管理 企业知识管理 企业知识管理工具

脉冲能量|Committer 专访——李理:Apache Pulsar 项目“体验师”

Apache Pulsar

开源 云原生 Apache Pulsar Apache Pulsar 社区 运维‘

超nei卷!连黑客勒索软件团伙都开始谈客户体验…

龙国富

黑客 客户体验 drakside 客户至上

java培训关闭流方法有顺序吗

@零度

JAVA开发 包装流

为什么做开源需要懂异步协作?

腾源会

开源 腾源会

Excelize 发布 2.6.0 版本,功能强大的 Excel 文档基础库

xuri

golang Excel Apache POI Go 语言 Excelize

敲重点!这些更新将会影响HarmonyOS原子化服务上架

HarmonyOS开发者

HarmonyOS 原子化服务

消息队列存储消息数据的MySQL表格设计

Geek_36cc7c

模块八作业:设计消息队列存储消息数据的 MySQL 表格

王大胖

面试官:Redis的事务满足原子性吗?

码农参上

redis 事务 4月月更

盘点:阿里云上8款免费的开发者工具

阿里云云效

阿里云 开发者 云原生 开发者工具 研发工具

自己动手写Docker系列 -- 5.5实现容器停止

Go Docker 4月月更

平安普惠荆州分公司:警民齐心,共同抗疫

科技新消息

如何禁用XXE处理?

龙智—DevSecOps解决方案

漏洞扫描 代码安全 漏洞检测

状态机引擎在vivo营销自动化中的深度实践 | 引擎篇02

vivo互联网技术

服务器 状态机

华为云GaussDB(for Influx)揭秘第五期:最佳实践之子查询

华为云开发者联盟

数据库 华为云 GaussDB(for Influx) 子查询 InfluxQL

快速尝鲜:RabbitMQ 搭建完就得用起来

阿Q说代码

RabbitMQ springboot 4月月更 消息确认机制

10个商品图策略,引导亚马逊卖家提升客户购物体验

龙国富

电商 商品 亚马逊 客户体验

web前端培训开发者要掌握的CSS 技巧有哪些

@零度

CSS 前端开发

H5营销有什么优势?企业需要定制开发H5吗?

源字节1号

前端开发 后端开发 H5制作

Linux驱动开发-编写PCF8591(ADC)芯片驱动

DS小龙哥

4月月更

姜文斌谈自然语言处理:将文本结构化_语言 & 开发_景琦_InfoQ精选文章