写点什么

从百度度秘看对话式 AI 发展:个性化定制和通用技术的增强并不矛盾

  • 2019-11-17
  • 本文字数:3418 字

    阅读完需:约 11 分钟

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾

最近几年,对话式人工智能市场呈现爆发态势,随着语音识别、语义理解、NLP 等技术的创新和进步,对话式 AI 已在智能家居、智能车载等场景实现了广泛落地。全球科技大厂也纷纷加码该领域,百度的 DuerOS 对话式 AI 平台是其中的代表性力量。


近日, InfoQ 有幸采访了百度度秘算法团队技术负责人谢剑,他结合 DuerOS 系统介绍了百度在对话式 AI 方面取得的进展和背后的技术力量。采访中,谢剑还展望了对话式 AI 未来的发展趋势,他认为,定制化和通用技术的增强不是矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,接下来,他和团队还会在将“个性化贯穿到整个系统”上做更多探索。


如果你对该话题有进一步的兴趣,谢剑还将在即将召开的ArchSummit全球架构师峰会上2019(北京站)上担任「算法应用」专题的出品人。


以下为 InfoQ 与谢剑对话全文:


InfoQ:谢老师,您好,首先请您做一下自我介绍,您自何时加入百度,现在主要负责哪一块业务?


谢剑:我是 2012 年硕士毕业后加入百度的,从硕士开始就一直在从事机器学习相关的工作。现在百度智能生活业务群组担任 AI 算法团队的技术负责人,负责的 DuerOS 算法出口包括我们第一方的小度音箱、小度在家、小度支架、小度电视伴侣以及输出给很多手机和硬件厂商的语音对话式交互能力。


InfoQ:目前,百度对话式 AI 的产品生态格局是怎样的,度秘在其中处于什么角色?


谢剑:百度对话式 AI 技术应用的主要产品出口从大的逻辑维度上和整个对话式技术的出口一致,主要分为两大块:


1)ToC 的语音对话式交互,其中包括百度地图导航时的语音交互,另外就是度秘背后的 DuerOS inside 的智能硬件(包括在家场景的音箱、车载场景中由车联网输出的车载系统的语音交互、电视、手机等)。


2)ToB 的场景,包括智能的销售以及客服,这部分主要以云服务为出口。


InfoQ: NLP 技术的突破是对话式 AI 发展的关键,可否具体介绍一下 NLP、智能语音等 AI 技术在度秘中的运用?


谢剑:NLP 技术在对话式 AI 中的应用比较显而易见,包含对经过语音识别后的文本进行基础 Query 分析、纠错/改写、意图识别、槽位解析等,以达到最透彻的理解用户需求。


但是,实际这个描述不太准确,对话式 AI 其实也是一个集大成的技术系统,不仅仅包含了语音、传统的 NLP,也包含了检索、推荐、知识图谱等各个维度的技术。比如:你需要借助对大量垂直领域的实体、实体属性等有深刻的理解才能更好的帮助你理解用户的需求;再比如,在你理解完用户的需求之后还要能够结合搜索的方法在一些内容型的需求中找到对应的结果。


InfoQ:在今年的百度 AI 开发者大会上,小度助手 5.0(DuerOS 5.0)正式发布,5.0 版本在核心层架构的算法方面有哪些升级?


谢剑:DuerOS 5.0 在算法的很多维度都有了比较大的升级,大的方面主要包括但不限于以下:


  1. 持续优化口语化的语言理解能力,基于百度的海量搜索、知识图谱数据预训练的深度理解模型,继续提升我们在长尾、口语化、识别错误等复杂的交互环境下的理解精度。

  2. 打造针对复杂远场语音交互下的"知之为知之,不知为不知"的智能满足结果预判以及多轮对话引导能力,帮助用户进一步提升获得满足的效率。

  3. 全双工免唤醒的持续交互能力

  4. 个性化的家庭信息流推荐能力


InfoQ:该版本最大的技术革新是具有全双工免唤醒能力,另一项关键能力是全球首创的家庭信息流和家庭通讯与通知功能,这两项能力背后运用到了哪些关键技术,在算法上有哪些创新之处?


谢剑:其中全双工的一次唤醒持续交互的能力是我们联合百度语音技术部一起研发的突破性技术,其中在系统架构上要实现能够持续聆听,在算法上基于上下文的场景、语音信号等进行是否是人机对话(是否是对小度说话)进行判别,而后在理解和满足上依赖多轮理解能力来实现满足。这个是我们在业界首次将这种能力上线并提供用户去使用。


而其中家庭信息流背后则包括个性化的家庭画像技术、个性化的推荐内容召回、排序等技术。我们的算法创新利用声纹、用户交互习惯等构建家的个性化画像,从而实现更精准的信息流推荐。


InfoQ:今年对话式 AI 进展较快,如百度的 ERNIE、阿里的 Enriched BERT base、微软 Mt-dnn、Uber 的 Plato,Facebook 推出的 RoBERTa 等,与友商相比, ERNIE 的优势在哪?


谢剑:ERNIE 是百度 NLP 今年的重要技术突破,我们在度秘场景下也和百度 NLP 部门深度合作应用,其相对于友商的重要优势在几个方面:首先,我们有最大的中文全网知识库和语料。第二,在算法上,在 BERT 无知识感知的结构上充分的利用 KG 进行 pre-train,能够大大的提升 pre-train 模型的泛化能力。第三,Paddle 近期针对这个模型做了非常大的性能和效果优化,尤其是性能上有很大的提升。


InfoQ:现在对话式人工智能发展的一个趋势是向定制化方向发展,通用技术越来越强,但与此同时人们的需求也越来越个性化,如何看待这种矛盾?如果要做到个性化的对话式 AI,在算法层面,需要做些什么?


谢剑:定制化和通用技术的增强是不矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,我们已经在做很多个性化的对话体验的探索以及有很多已经落地到产品上,算法层面的话,大致可以分为几个部分:首先需要有很好的个性化画像和特征提取,此外要在全模块上引入个性化的 feature。但是实际在对话中需要关注的是上下文(短期关注点)、个性化(长期历史关注点)等多个信号应用的综合和平衡的考虑。


InfoQ:算法是 AI 的根基,近几年,深度学习算法的突破加速 AI 在各行业的落地应用,尽管“AI+”应用火热,但在底层算法能力方面,仍然面临不少挑战,在对话式 AI 智能方面,这些挑战主要表现在哪些方面,原因是什么?


谢剑: 对话式 AI 智能的挑战是多方面的,首先从目标上来看,这个事的目标是像人,甚至比人更聪明地去和用户交流(比如要比一个普通人更懂音乐等),这件事本身就是一个通用智能的问题,而当前的技术状态在实现通用智能上还是有很大一段距离的


具体来说落地到实际中的挑战,比如在音箱的场景中还以下几个方面的问题。


1)远场的语音交互下,有各种复杂的环境,噪声、多人讲话等等,很多已经超出语音识别的技术范畴,还要考虑是否是人机的对话等等。


2)由于 1 中的原因以及口语交互的问题,会有大量歧义、长尾甚至是部分识别错误的文本需要去做语义理解和满足,这就意味着原先规整的文本下就会遇到 NLP 的很多经典问题,在这个场景下会遇到,同时还有大量上述问题带来的理解挑战


3)对话是一个多轮的过程,一旦到了多轮之后整个问题空间会大大增大,结合 2 中遇到的问题就会变得更大。


InfoQ:如何解决?


谢剑:解决的方法也大致可以分为两大块:1)在算法应用上:充分的利用百度已有的海量搜索、知识图谱等先验知识提升算法的先验语义理解能力,同时充分建设对话场景下的用户数据反馈闭环,形成大数据驱动下的深度模型优化;2)在基础的底层算法突破上,和百度内部的 AI 部门联合进行很多底层技术的突破,包括大规模的预训练等。


InfoQ:预训练模型 BERT 的出现是今年 NLP 领域的重大进展,带来了里程碑式的改变。InfoQ 此前接触到的一位专家曾作出如下预测,BERT + Transformer 有可能在未来几年替代掉 NLP 各个不同应用领域之前五花八门的具体技术,或可成为 NLP 领域的大一统模型,对于这个观点,您是否同意,是或者不是,请说明理由?


谢剑: 首先 Transformer 和 BERT 还不算一回事,Transformer 是一个很好的网络 block,BERT 基于 Transformer 实际还提出了 pre-train+fine tune 的大框架,能够适用于大部分的 NLP 任务。对于这个观点,我的回答是:是,也不是。


赞同的是 pre-train+fine tune 的这个框架从思想和实践上都是一个非常好的框架,应该会逐步的被广泛的在各个任务中应用,甚至会变成一个基本的 baseline。但实际上 pre-train 还挺贵,尤其是要针对某一些场景特定的 pre-train,真正特别有效的 pre-train 也依赖大量的语料以及强大的算力,这个会导致市场实际能玩得动、且真正取得大收益的公司并不多。


不赞同的点是,在 BERT 之后的短短半年之内在 pre-train+fine tune 的大框架下,Google、Facebook 等此起彼伏的又有大量的优化甚至是不同的模型。相信未来还会有继续改进的空间,尤其 pre-train 如何能够更好的刻画知识。


InfoQ:接下来,您所负责的业务及团队还将有哪些规划?


谢剑:在未来的规划上,有一个非常重要的方面就如你上面提到的“充分考虑个性化”的因素,而且不单单是个性化的推荐上,而是要把个性化贯穿到整个系统上,包括语义理解上充分的考虑 user model 等。


2019-11-17 23:254635
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.7 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

银行APP用户体验外滩峰会圆满落幕!易观分析赋能用户体验体系,助力体验提升

易观分析

App 银行 易观

Apisix网关快速入门实践

IT巅峰技术

埃森哲发布《2022中国企业数字化转型指数》,如何通过自动化工具打造技术底座

SoFlu软件机器人

调用链路上千条,如何观测 Nacos 的运行状态

阿里巴巴云原生

阿里云 微服务 云原生 naocs

如何通过 NFTScan 浏览器捕获 NFT 投资机会

NFT Research

区块链 NFT 数据基础设施

十分钟带你全面解析Promise、generator、async类同步编程!

好程序员IT教育

JavaScript Promise

为什么你的敏捷总是不成功?

敏捷开发

【计算讲谈社】第十二讲|数据中心那些事儿

大咖说

数据中心 碳中和

深度解读|NebulaGraph x 阿里云计算巢,云上构建超大规模图数据库

阿里云弹性计算

图数据库 计算巢

如何做好成熟完整的企业团队知识管理?

Baklib

团队管理 知识管理

华为云发布1+3+M+N全球云基础设施布局 全面推动汽车产业数智升级

科技热闻

适合小白Web前端入门JS基础知识梳理汇总

千锋IT教育

Wallys/DR7915/MT7915/MT7975/industrial mini pcie card 2T2R

Cindy-wallys

MT7915 MT7975 / 2.4G&5G

让 Serverless 更普惠,阿里云函数计算 FC 宣布全面降价,最大幅度达 37.5%

Serverless Devs

阿里云 Serverless

《大厂面试》之JVM篇21问与答

钟奕礼

Java java程序员 java面试 java编程

Wallys/ industrial mini pcie card/2x 2 5G /High power Radio card

Cindy-wallys

QCA9882 2x 2 5G high power

磁盘占用高问题如何排查?三步教你搞定

OceanBase 数据库

开源共建 | Dinky 扩展批流统一数据集成框架 ChunJun 的实践分享

袋鼠云数栈

Linux之用户管理、权限管理、程序安装卸载

C++后台开发

Linux 后端开发 linux开发 Linux服务器开发 C++开发

PHP反序列化漏洞解析

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

谁能破解客户数字化困局?

ToB行业头条

【案例】数字化浪潮中,云科通明湖如何助力能源行业弯道超车?

通明湖

负载均衡

快围观!助力 TDesign 无障碍改造活动来了!

TDesign

无障碍

mysql经典面试题

@下一站

MySQL 编程 dba 11月月更

Baklib知识分享 | 搭建企业在线帮助中心的最佳攻略

Baklib

FAQ是什么?该如何编辑FAQ?

Baklib

2022年10月视频用户洞察:卡塔尔世界杯揭幕,全民体育盛宴开启

易观分析

视频 世界杯

日志异常检测准确率低?一文掌握日志指标序列分类

云智慧AIOps社区

深度学习 日志分析 时间序列 指标预测 日志异常

5分钟实现「视频检索」:基于内容理解,无需任何标签

Zilliz

人工智能 Towhee 视频检索

深度学习 | 如何开发、部署 Serverless 应用?

阿里巴巴云原生

阿里云 Serverless 云原生

Redis 持久化机制演进与百度智能云的实践

Baidu AICLOUD

数据库 Redis内核

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾_AI&大模型_刘燕_InfoQ精选文章