写点什么

百度技术沙龙第 51 期回顾:语义分析技术(含资料下载)

  • 2014-07-07
  • 本文字数:1820 字

    阅读完需:约 6 分钟

2014 年 6 月 28 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 51 期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。

三位语义技术方面的博士分享的话题分别为:《自然语言对话式搜索——打开智能生活的钥匙》、《实体链接:从文本到概念》和《标注适应:以中文分词和依存分析为例》,本文将对两位专家各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:自然语言对话式搜索——打开智能生活的钥匙(下载讲稿

赵世奇通过百度考霸这款轻应用产品,向观众解释了如何通过语义分析技术,辅助高考学生填报志愿。

“像这种北京大学的分数线,紧接着从人的交互中会出现这样的语言,那清华的,清华大学的分数线呢?这就是在自然语言处理中一种典型的技术叫消解,他要消解的是清华,你要的是清华大学的分数线。”赵世奇针对考霸的这个功能解释说,这是人的对话中不经意的行为,需要通过技术让计算机也学会和人交流。

像需求补全的环节,要判断这里面缺省的部分,以及这里面的代词指代的是前文中的什么东西,最后是对用户在整个聊天过程中他全局信息的抽取利用和修改。

赵世奇最后总结,“我们很多的事情其实都是围绕着知识库来展开的。无论是语义的解析,还是需求的满足,都可以围绕知识库展开。所以自然语言交互式搜索,其实是NLP 技术集成的体现,这中间涉及到大量的技术的融合和联合的过程”。

主题二:实体链接:从文本到概念(下载讲稿

韩先培的研究方向是信息抽取、知识库构建,以及知识集成。他在沙龙上介绍了实体链接的任务、关键技术、现有水平和关键挑战,并展示实体链接的相关应用。以及在计算机上构建相应的实体链接系统,从而实现文本到概念的转换。

语言的歧义性是指什么,就是同一个词语、词组、句子在不同的上下文中有多种不同的意义。韩先培解释了自然语言表达的多样性,统一意语言可以以多种不同的方式表达,很难找全信息,首先第一个自然语言表达是富有弹性的。

我们用的知识是水果苹果和苹果电脑的上下文,以及中关村和水果苹果的相关度,基于这些知识,我们需要推测出中关村的苹果不错是指苹果电脑,而不是水果苹果。现在主流的方法有两种,一种是局部推理,一种是全局推理。

韩先培总结说,实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到了实用水平,我们之所以说在一定程度上,它可以在很多应用中直接应用。但是不能在所有的应用中都可以直接使用。

主题三:标注适应- 以词法分析和句法分析为例(下载讲稿

最后一位分享的是姜文斌博士,他阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。

姜文斌总结,标注适应的问题和方法,问题就是适应或融合不同标注标准的语料库的知识,方法就是基于经典分类器进行切换。在词法分析和句法分析问题上验证,显著提升词法分析和句法分析的性能,在大家的产业化做实用的产品需要处理大规模语料的时候有用途。应用场景是融合不同的人工标注语料,联合领域适应和标注适应,它的应用场景应该是非常广泛的。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

小丁-unisound :举办的不错,很少有广告啰嗦忽悠的话,最重要的是课件实时的更新供大家下载

快乐闪光灯:希望了解如何合并实体不同的名称,比如公司各种简写,子公司,甚至在截取了部分名称 等等情况

屌丝小混混:百度知道回答的问题错误答案很多啊,知识库挖掘怎么去伪?

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第52 期百度技术沙龙将在7 月26 日在车库咖啡举行,主题为跨界的“百度语音合成 ,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-07 04:262506

评论

发布
暂无评论
发现更多内容

精彩回顾|从架构到实践,AntDB融合型数据库揭秘

亚信AntDB数据库

数据库 AntDB AntDB数据库

LED显示屏防护等级知识讲解

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家 等级

【Linux 基础入门 + Java项目部署】

百度搜索:蓝易云

Java 云计算 Linux 运维 云服务器

Gitlab配置mirrorRepository 镜像仓库

javaNice

Java gitlab

万界星空科技云MES管理系统和ERP的对接

万界星空科技

数字化转型 mes 云mes 万界星空科技 万界星空科技mes

欢迎提报 | 2023年龙蜥社区优秀贡献者评选正式启动

OpenAnolis小助手

开源 操作系统 龙蜥社区 最佳案例 突出贡献

华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

代码混淆的原理是什么?常见代码混淆方法介绍

雪奈椰子

巴适得板!这次我们和四川一起加“数”前行!

天翼云开发者社区

云计算 大数据

体验函数计算 FC 3.0,写测评赢取索尼头戴式耳机

Serverless Devs

云计算 Serverless AIGC

从商业增长到自然增长,OPPO广告联盟为开发者开辟增长新路径

Geek_2d6073

苹果Mac动态壁纸:Dynamic Wallpaper 16.7中文版

繁星

动态壁纸 Dynamic Wallpaper

更快更省更好用!天翼云云原生一体机iStack打通物云最后一公里!

天翼云开发者社区

云计算 云原生

微信团队分享:详解iOS版微信视频号直播中因帧率异常导致的功耗问题

JackJiang

网络编程 即时通讯 IM

CodeWhisperer--手把手教你使用一个十分强大的工具

亚马逊云科技 (Amazon Web Services)

Python 人工智能 云上探索实验室 Amazon CodeWhisperer Amazon Cloud9

任福继院士:基于交叉学科的研究将成主流,算力平台和计算人才是自主创新关键

Geek_2d6073

KiCon Asia 2023完美落幕,助力Kicad生态繁荣,华秋在行动

华秋电子

kicad

平凯星辰 TiDB 获评 “2023 中国金融科技守正创新扬帆计划” 十佳优秀实践奖

编程猫

赛车竞速游戏:art of rally拉力赛车 for Mac 1.5.0中文版

繁星

赛车竞速游戏 Art of Rally

为何选择独立服务器?稳定、高效、安全等优势一览

一只扑棱蛾子

独立服务器

本地MQTT协议消息服务远程连接教程介绍

EquatorCoco

Linux 本地化 mqtt 协议解析

使用 PPO 算法进行 RLHF 的 N 步实现细节

EquatorCoco

算法 ppo算法

华秋这场技术研讨邀请了哪些重磅嘉宾?

华秋电子

StoneDB顺利通过中科院软件所 2023 开源之夏 结项审核

StoneDB

MySQL 数据库 HTAP StoneDB

更快更省更好用!天翼云云原生一体机iStack打通物云最后一公里!

Geek_2d6073

外包的鄙视链,背后原因是什么

老张

外包 竞争力 核心竞争力

助力开发者健康长效增长 OPPO 开启应用和服务生态新篇章

Geek_2d6073

如何搞砸一场面试?

王磊

Java 面试

Apache环境php安装扩展swoole。

百度搜索:蓝易云

Apache 云计算 Linux swoole 云服务器

最新前端技术趋势——菜鸟必看

秃头小帅oi

前端

一张图厘清各大操作系统的发展脉络

巫山老妖

百度技术沙龙第51期回顾:语义分析技术(含资料下载)_语言 & 开发_景琦_InfoQ精选文章