HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

从百度度秘看对话式 AI 发展:个性化定制和通用技术的增强并不矛盾

  • 2019-11-17
  • 本文字数:3418 字

    阅读完需:约 11 分钟

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾

最近几年,对话式人工智能市场呈现爆发态势,随着语音识别、语义理解、NLP 等技术的创新和进步,对话式 AI 已在智能家居、智能车载等场景实现了广泛落地。全球科技大厂也纷纷加码该领域,百度的 DuerOS 对话式 AI 平台是其中的代表性力量。


近日, InfoQ 有幸采访了百度度秘算法团队技术负责人谢剑,他结合 DuerOS 系统介绍了百度在对话式 AI 方面取得的进展和背后的技术力量。采访中,谢剑还展望了对话式 AI 未来的发展趋势,他认为,定制化和通用技术的增强不是矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,接下来,他和团队还会在将“个性化贯穿到整个系统”上做更多探索。


如果你对该话题有进一步的兴趣,谢剑还将在即将召开的ArchSummit全球架构师峰会上2019(北京站)上担任「算法应用」专题的出品人。


以下为 InfoQ 与谢剑对话全文:


InfoQ:谢老师,您好,首先请您做一下自我介绍,您自何时加入百度,现在主要负责哪一块业务?


谢剑:我是 2012 年硕士毕业后加入百度的,从硕士开始就一直在从事机器学习相关的工作。现在百度智能生活业务群组担任 AI 算法团队的技术负责人,负责的 DuerOS 算法出口包括我们第一方的小度音箱、小度在家、小度支架、小度电视伴侣以及输出给很多手机和硬件厂商的语音对话式交互能力。


InfoQ:目前,百度对话式 AI 的产品生态格局是怎样的,度秘在其中处于什么角色?


谢剑:百度对话式 AI 技术应用的主要产品出口从大的逻辑维度上和整个对话式技术的出口一致,主要分为两大块:


1)ToC 的语音对话式交互,其中包括百度地图导航时的语音交互,另外就是度秘背后的 DuerOS inside 的智能硬件(包括在家场景的音箱、车载场景中由车联网输出的车载系统的语音交互、电视、手机等)。


2)ToB 的场景,包括智能的销售以及客服,这部分主要以云服务为出口。


InfoQ: NLP 技术的突破是对话式 AI 发展的关键,可否具体介绍一下 NLP、智能语音等 AI 技术在度秘中的运用?


谢剑:NLP 技术在对话式 AI 中的应用比较显而易见,包含对经过语音识别后的文本进行基础 Query 分析、纠错/改写、意图识别、槽位解析等,以达到最透彻的理解用户需求。


但是,实际这个描述不太准确,对话式 AI 其实也是一个集大成的技术系统,不仅仅包含了语音、传统的 NLP,也包含了检索、推荐、知识图谱等各个维度的技术。比如:你需要借助对大量垂直领域的实体、实体属性等有深刻的理解才能更好的帮助你理解用户的需求;再比如,在你理解完用户的需求之后还要能够结合搜索的方法在一些内容型的需求中找到对应的结果。


InfoQ:在今年的百度 AI 开发者大会上,小度助手 5.0(DuerOS 5.0)正式发布,5.0 版本在核心层架构的算法方面有哪些升级?


谢剑:DuerOS 5.0 在算法的很多维度都有了比较大的升级,大的方面主要包括但不限于以下:


  1. 持续优化口语化的语言理解能力,基于百度的海量搜索、知识图谱数据预训练的深度理解模型,继续提升我们在长尾、口语化、识别错误等复杂的交互环境下的理解精度。

  2. 打造针对复杂远场语音交互下的"知之为知之,不知为不知"的智能满足结果预判以及多轮对话引导能力,帮助用户进一步提升获得满足的效率。

  3. 全双工免唤醒的持续交互能力

  4. 个性化的家庭信息流推荐能力


InfoQ:该版本最大的技术革新是具有全双工免唤醒能力,另一项关键能力是全球首创的家庭信息流和家庭通讯与通知功能,这两项能力背后运用到了哪些关键技术,在算法上有哪些创新之处?


谢剑:其中全双工的一次唤醒持续交互的能力是我们联合百度语音技术部一起研发的突破性技术,其中在系统架构上要实现能够持续聆听,在算法上基于上下文的场景、语音信号等进行是否是人机对话(是否是对小度说话)进行判别,而后在理解和满足上依赖多轮理解能力来实现满足。这个是我们在业界首次将这种能力上线并提供用户去使用。


而其中家庭信息流背后则包括个性化的家庭画像技术、个性化的推荐内容召回、排序等技术。我们的算法创新利用声纹、用户交互习惯等构建家的个性化画像,从而实现更精准的信息流推荐。


InfoQ:今年对话式 AI 进展较快,如百度的 ERNIE、阿里的 Enriched BERT base、微软 Mt-dnn、Uber 的 Plato,Facebook 推出的 RoBERTa 等,与友商相比, ERNIE 的优势在哪?


谢剑:ERNIE 是百度 NLP 今年的重要技术突破,我们在度秘场景下也和百度 NLP 部门深度合作应用,其相对于友商的重要优势在几个方面:首先,我们有最大的中文全网知识库和语料。第二,在算法上,在 BERT 无知识感知的结构上充分的利用 KG 进行 pre-train,能够大大的提升 pre-train 模型的泛化能力。第三,Paddle 近期针对这个模型做了非常大的性能和效果优化,尤其是性能上有很大的提升。


InfoQ:现在对话式人工智能发展的一个趋势是向定制化方向发展,通用技术越来越强,但与此同时人们的需求也越来越个性化,如何看待这种矛盾?如果要做到个性化的对话式 AI,在算法层面,需要做些什么?


谢剑:定制化和通用技术的增强是不矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,我们已经在做很多个性化的对话体验的探索以及有很多已经落地到产品上,算法层面的话,大致可以分为几个部分:首先需要有很好的个性化画像和特征提取,此外要在全模块上引入个性化的 feature。但是实际在对话中需要关注的是上下文(短期关注点)、个性化(长期历史关注点)等多个信号应用的综合和平衡的考虑。


InfoQ:算法是 AI 的根基,近几年,深度学习算法的突破加速 AI 在各行业的落地应用,尽管“AI+”应用火热,但在底层算法能力方面,仍然面临不少挑战,在对话式 AI 智能方面,这些挑战主要表现在哪些方面,原因是什么?


谢剑: 对话式 AI 智能的挑战是多方面的,首先从目标上来看,这个事的目标是像人,甚至比人更聪明地去和用户交流(比如要比一个普通人更懂音乐等),这件事本身就是一个通用智能的问题,而当前的技术状态在实现通用智能上还是有很大一段距离的


具体来说落地到实际中的挑战,比如在音箱的场景中还以下几个方面的问题。


1)远场的语音交互下,有各种复杂的环境,噪声、多人讲话等等,很多已经超出语音识别的技术范畴,还要考虑是否是人机的对话等等。


2)由于 1 中的原因以及口语交互的问题,会有大量歧义、长尾甚至是部分识别错误的文本需要去做语义理解和满足,这就意味着原先规整的文本下就会遇到 NLP 的很多经典问题,在这个场景下会遇到,同时还有大量上述问题带来的理解挑战


3)对话是一个多轮的过程,一旦到了多轮之后整个问题空间会大大增大,结合 2 中遇到的问题就会变得更大。


InfoQ:如何解决?


谢剑:解决的方法也大致可以分为两大块:1)在算法应用上:充分的利用百度已有的海量搜索、知识图谱等先验知识提升算法的先验语义理解能力,同时充分建设对话场景下的用户数据反馈闭环,形成大数据驱动下的深度模型优化;2)在基础的底层算法突破上,和百度内部的 AI 部门联合进行很多底层技术的突破,包括大规模的预训练等。


InfoQ:预训练模型 BERT 的出现是今年 NLP 领域的重大进展,带来了里程碑式的改变。InfoQ 此前接触到的一位专家曾作出如下预测,BERT + Transformer 有可能在未来几年替代掉 NLP 各个不同应用领域之前五花八门的具体技术,或可成为 NLP 领域的大一统模型,对于这个观点,您是否同意,是或者不是,请说明理由?


谢剑: 首先 Transformer 和 BERT 还不算一回事,Transformer 是一个很好的网络 block,BERT 基于 Transformer 实际还提出了 pre-train+fine tune 的大框架,能够适用于大部分的 NLP 任务。对于这个观点,我的回答是:是,也不是。


赞同的是 pre-train+fine tune 的这个框架从思想和实践上都是一个非常好的框架,应该会逐步的被广泛的在各个任务中应用,甚至会变成一个基本的 baseline。但实际上 pre-train 还挺贵,尤其是要针对某一些场景特定的 pre-train,真正特别有效的 pre-train 也依赖大量的语料以及强大的算力,这个会导致市场实际能玩得动、且真正取得大收益的公司并不多。


不赞同的点是,在 BERT 之后的短短半年之内在 pre-train+fine tune 的大框架下,Google、Facebook 等此起彼伏的又有大量的优化甚至是不同的模型。相信未来还会有继续改进的空间,尤其 pre-train 如何能够更好的刻画知识。


InfoQ:接下来,您所负责的业务及团队还将有哪些规划?


谢剑:在未来的规划上,有一个非常重要的方面就如你上面提到的“充分考虑个性化”的因素,而且不单单是个性化的推荐上,而是要把个性化贯穿到整个系统上,包括语义理解上充分的考虑 user model 等。


2019-11-17 23:254566
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.8 次阅读, 收获喜欢 1976 次。

关注

评论

发布
暂无评论
发现更多内容

数据挖掘、机器学习、深度学习的区别

九章云极DataCanvas

数据挖掘 机器学习 深度学习

JAVA concurrency -- AQS 源码详解

骑牛上青山

Java 源码

直播预告|全闪文件存储在 AI 大数据领域的前沿应用

焱融科技

云计算 分布式系统 高性能 文件存储 全闪存储

java学习后该怎么培养自主学习能力

小谷哥

面向智慧城市的GIS框架

tjn

GIS 可视化 11月月更

专为实时而生 — GreptimeDB 现已在 GitHub 正式开源

Greptime 格睿科技

开源 分布式 云原生 时序数据库 存算分离

融云 K 歌解决方案,应用丰富互动模式的「万能卡」

融云 RongCloud

互动平台

B站疯传 Java面试题,24小时删

程序知音

Java java面试 java架构 后端技术 Java面试八股文

量化交易炒币机器人开发合约策略

薇電13242772558

量化策略

如何在大促中做好系统高可用

阿里巴巴云原生

阿里云 微服务 高可用 云原生网关

Go语言—基本输入输出包的使用

良猿

Go golang 后端 11月月更

微博评论高可用高性能计算架构设计

Jack

架构实战训练营9期

鼎医信息加入PolarDB开源数据库社区

阿里云数据库开源

阿里云 polarDB PolarDB-X 阿里云数据库 PolarDB for PostgreSQL

web前端培训学习需要注意什么

小谷哥

技术贴 | Rocksdb 中 Memtable 源码解析

KaiwuDB

数据库

启科量子 QuSprout 正式开源

启科量子开发者官方号

开源 量子计算 量子编程

【简历优化】如何写好项目的亮点难点?项目经历怎么写最好?

王中阳Go

高效工作 学习方法 面试 简历模板 11月月更

web前端培训上海学习好吗

小谷哥

函数计算|如何使用层解决依赖包问题?

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

eBPF 实践 -- 网络可观测

观测云

【高并发全彩版小册】阿里内部大佬用7部分讲懂!百亿级高并发系统

程序知音

Java 高并发 java架构 后端技术 高并发架构

阿里内部高并发核心编程笔记:多线程、锁、JMM、JUC、设计模式

程序知音

高并发 java架构 后端技术 高并发架构

带你全面了解Gateway

好程序员IT教育

Spring Cloud Gateway SpringCloud Gateway

系统运维利器,百万服务器运维实战总结!一文了解最新版SysAK|龙蜥技术

OpenAnolis小助手

Linux 开源 运维 龙蜥社区 SysAK

Docker安装minio(CentOS7)

蜗牛也是牛

大数据培训学习后,就业不好就业

小谷哥

手写一个webpack插件

Geek_02d948

webpack

华为新机到手升级HarmonyOS 3,畅享多设备高效互联协同

Geek_2d6073

搭建企业镜像仓库~Harbor

蜗牛也是牛

你需要知道的webpack高频面试题

Geek_02d948

webpack

STL迭代器失效问题

Maybe_fl

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾_AI&大模型_刘燕_InfoQ精选文章