写点什么

姜文斌谈自然语言处理:将文本结构化

  • 2014-06-22
  • 本文字数:2009 字

    阅读完需:约 7 分钟

“我对自然语言处理将怀有终身的兴趣,自我感觉,我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法,肯定是会存在不正确或疏漏的地方,还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所 姜文斌博士

在统计方法盛行的时代,大多数自然语言处理系统的性能,受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前, InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向,特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录:

InfoQ:请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌:中科院计算所自然语言研究组团队带头人是我的导师刘群教授,在刘教授不在国内的几年,我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人,员工 6 人,另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译,至今已有十多年的历史了,机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术,如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向,是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ:文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫,能否做一个简单的讲解和阐述。

姜文斌:互联网相关的大数据应用,首先需要对大数据的采集和处理。对其中文本数据的处理,离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据,进行进一步的分析和理解,需要将无结构化的文本进行“有结构化”,这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译,往文化层面说是人类沟通交流的桥梁,往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用,机器翻译的作用将是为不同语言的文本数据之间架设桥梁,支撑大数据应用中的跨语言环节。

InfoQ大数据技术对语义分析有哪些影响?

姜文斌:大数据和语义分析,在不同的角度看其实是互为基础的。如果想做更好的大数据应用,那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析,则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度,大数据对语义分析的影响都是正面的。第一个角度,大数据为语义分析提供了更好的发挥空间;第二个角度,大数据为语义分析提供了潜在的知识宝藏。

InfoQ:就自然语言处理技术的实际落地,姜老师能否为我们列举几个实际案例。

姜文斌:自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法,当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译,虽然目前无法实现人所期望的“信达雅”,但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ:语义分析技术今后将朝哪个方向发展?

姜文斌:语义分析是自然语言处理的终极梦想之一,近来也已成为国内外学者孜孜寻求突破的重点方向。但是,要想让计算机实现自动化的语义分析,既需要更能描述语义及推理的算法,又需要大量的世界常识知识,而目前两者都很难做好。可预见的将来,我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析,从大数据中自动学习用以改进语义分析的知识,可能也是一个有希望的发展方向。

InfoQ能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌:今年最开心的事情之一,是投往 CL 的长文被录用了。该工作专注于标注标准适应,意在能自动地适应和转换不同标注标准的语料库知识,用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题,但是仅仅关注“领域”是不够的,现实世界需要更多的适应。我们 CL 的工作关注的是标注适应,与领域适应不同,标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作,跨语言的词法和句法知识映射也已经基本成型,我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起,都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上,我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告,更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务,在个人具体的研究方向上有些力不从心,很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手,我有了更多的可支配时间。接下来,在指导学生和师弟妹研究工作的同时,也将继续亲自进行研究实践,期望我能够在机器翻译上带来突破。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-22 23:239331

评论

发布
暂无评论
发现更多内容

Flume简述

数新网络官方账号

数据采集 flume

拉链表的原理及简单实现

数新网络官方账号

大数据 拉链式散列表

全球化数字经济时代,国产替代成为重中之重!

用友BIP

国产替代

华为云专家出品《深入理解边缘计算》电子书上线

华为云PaaS服务小智

边缘计算 华为云 华为开发者联盟

走进用友BIP数智人力,揭开中国企业智慧管理的神秘面纱

用友BIP

数智人力

为什么需要数字化?如果实现数字化?

高端章鱼哥

低代码 数字化 企业管理软件 JNPF

2023年,低代码秀起了肌肉

树上有只程序猿

HTML5 游戏开发实战 | 贪吃蛇

TiAmo

html html5 6 月 优质更文活动

探秘华为云盘古大模型:AI for industries的身体力行

华为云开发者联盟

人工智能 华为云 盘古大模型 华为云开发者联盟 企业号 6 月 PK 榜

PoseiSwap IDO、IEO 结束,即将登录 BNB Chain

鳄鱼视界

免费开源项目管理工具有哪些

爱吃小舅的鱼

项目管理 项目管理软件

产品能力|AIRIOT数据采集与控制引擎在物联网项目中的硬核应用

AIRIOT

物联网

Kafka优化

数新网络官方账号

大数据 zookeeper

用这个开源项目,网络小白也能搞定容器网络问题排查

阿里巴巴云原生

阿里云 容器 云原生 KubeSkoop

PoseiSwap IDO、IEO 结束,即将登录 BNB Chain

威廉META

Postman Test 校验入门指南:轻松进行接口测试并验证响应

Liam

Java 程序员 Postman 开发工具 API

升级数智底座助力快速构建创新应用

用友BIP

低代码 数智底座 Pass平台

QCN6274 QCN9274 What is the difference?|WIFI7 Solution|Wallys

wallyslilly

qcn9274 qcn6274

构建数字工厂丨数据分析与图表视图模型的配置用法

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟 企业号 6 月 PK 榜

hive数据迁移

数新网络官方账号

大数据 hadoop hadoop spark hive

[NLP] langchain-ChatGLM 本地知识库

alexgaoyh

知识库 私有化部署 langchain ChatGLM-6B

预约直播 | 展心展力MetaApp:基于DeepRec的稀疏模型训练实践

阿里云大数据AI技术

人工智能 模型训练

低代码——前端开发人员的利器

伤感汤姆布利柏

是时候了!MySQL 5.7 的下一站,不如试试 TiDB?

编程猫

高可用只读,让RDS for MySQL更稳定

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

BI商业智能工具改变企业发展态势

对不起该用户已成仙‖

9 个值得推荐的 VUE3 UI 框架

互联网工科生

Vue UI VUE 3.0 源码

拥抱jsx,开启vue3用法的另一种选择

快乐非自愿限量之名

Vue JSX

广州丨阿里云 Serverless 技术实战营邀你来玩!

阿里巴巴云原生

阿里云 Serverless 云原生

面试了一个前阿里P7,Java八股文与架构核心知识简直背得炉火纯青

程序员小毕

程序员 后端 高并发 架构师 java面试

姜文斌谈自然语言处理:将文本结构化_语言 & 开发_景琦_InfoQ精选文章