从百度度秘看对话式AI发展：个性化定制和通用技术的增强并不矛盾_AI&大模型_刘燕

最近几年，对话式人工智能市场呈现爆发态势，随着语音识别、语义理解、NLP 等技术的创新和进步，对话式 AI 已在智能家居、智能车载等场景实现了广泛落地。全球科技大厂也纷纷加码该领域，百度的 DuerOS 对话式 AI 平台是其中的代表性力量。

近日， InfoQ 有幸采访了百度度秘算法团队技术负责人谢剑，他结合 DuerOS 系统介绍了百度在对话式 AI 方面取得的进展和背后的技术力量。采访中，谢剑还展望了对话式 AI 未来的发展趋势，他认为，定制化和通用技术的增强不是矛盾的，反而是通用技术的增强能够促进更好的达到个性化的体验，接下来，他和团队还会在将“个性化贯穿到整个系统”上做更多探索。

如果你对该话题有进一步的兴趣，谢剑还将在即将召开的ArchSummit 全球架构师峰会上2019（北京站）上担任「算法应用」专题的出品人。

以下为 InfoQ 与谢剑对话全文：

InfoQ：谢老师，您好，首先请您做一下自我介绍，您自何时加入百度，现在主要负责哪一块业务？

谢剑：我是 2012 年硕士毕业后加入百度的，从硕士开始就一直在从事机器学习相关的工作。现在百度智能生活业务群组担任 AI 算法团队的技术负责人，负责的 DuerOS 算法出口包括我们第一方的小度音箱、小度在家、小度支架、小度电视伴侣以及输出给很多手机和硬件厂商的语音对话式交互能力。

InfoQ：目前，百度对话式 AI 的产品生态格局是怎样的，度秘在其中处于什么角色？

谢剑：百度对话式 AI 技术应用的主要产品出口从大的逻辑维度上和整个对话式技术的出口一致，主要分为两大块：

1）ToC 的语音对话式交互，其中包括百度地图导航时的语音交互，另外就是度秘背后的 DuerOS inside 的智能硬件（包括在家场景的音箱、车载场景中由车联网输出的车载系统的语音交互、电视、手机等）。

2）ToB 的场景，包括智能的销售以及客服，这部分主要以云服务为出口。

InfoQ： NLP 技术的突破是对话式 AI 发展的关键，可否具体介绍一下 NLP、智能语音等 AI 技术在度秘中的运用？

谢剑：NLP 技术在对话式 AI 中的应用比较显而易见，包含对经过语音识别后的文本进行基础 Query 分析、纠错/改写、意图识别、槽位解析等，以达到最透彻的理解用户需求。

但是，实际这个描述不太准确，对话式 AI 其实也是一个集大成的技术系统，不仅仅包含了语音、传统的 NLP，也包含了检索、推荐、知识图谱等各个维度的技术。比如：你需要借助对大量垂直领域的实体、实体属性等有深刻的理解才能更好的帮助你理解用户的需求；再比如，在你理解完用户的需求之后还要能够结合搜索的方法在一些内容型的需求中找到对应的结果。

InfoQ：在今年的百度 AI 开发者大会上，小度助手 5.0（DuerOS 5.0）正式发布，5.0 版本在核心层架构的算法方面有哪些升级？

谢剑：DuerOS 5.0 在算法的很多维度都有了比较大的升级，大的方面主要包括但不限于以下：

持续优化口语化的语言理解能力，基于百度的海量搜索、知识图谱数据预训练的深度理解模型，继续提升我们在长尾、口语化、识别错误等复杂的交互环境下的理解精度。
打造针对复杂远场语音交互下的"知之为知之，不知为不知"的智能满足结果预判以及多轮对话引导能力，帮助用户进一步提升获得满足的效率。
全双工免唤醒的持续交互能力
个性化的家庭信息流推荐能力

InfoQ：该版本最大的技术革新是具有全双工免唤醒能力，另一项关键能力是全球首创的家庭信息流和家庭通讯与通知功能，这两项能力背后运用到了哪些关键技术，在算法上有哪些创新之处？

谢剑：其中全双工的一次唤醒持续交互的能力是我们联合百度语音技术部一起研发的突破性技术，其中在系统架构上要实现能够持续聆听，在算法上基于上下文的场景、语音信号等进行是否是人机对话（是否是对小度说话）进行判别，而后在理解和满足上依赖多轮理解能力来实现满足。这个是我们在业界首次将这种能力上线并提供用户去使用。

而其中家庭信息流背后则包括个性化的家庭画像技术、个性化的推荐内容召回、排序等技术。我们的算法创新利用声纹、用户交互习惯等构建家的个性化画像，从而实现更精准的信息流推荐。

InfoQ：今年对话式 AI 进展较快，如百度的 ERNIE、阿里的 Enriched BERT base、微软 Mt-dnn、Uber 的 Plato，Facebook 推出的 RoBERTa 等，与友商相比， ERNIE 的优势在哪？

谢剑：ERNIE 是百度 NLP 今年的重要技术突破，我们在度秘场景下也和百度 NLP 部门深度合作应用，其相对于友商的重要优势在几个方面：首先，我们有最大的中文全网知识库和语料。第二，在算法上，在 BERT 无知识感知的结构上充分的利用 KG 进行 pre-train，能够大大的提升 pre-train 模型的泛化能力。第三，Paddle 近期针对这个模型做了非常大的性能和效果优化，尤其是性能上有很大的提升。

InfoQ：现在对话式人工智能发展的一个趋势是向定制化方向发展，通用技术越来越强，但与此同时人们的需求也越来越个性化，如何看待这种矛盾？如果要做到个性化的对话式 AI，在算法层面，需要做些什么？

谢剑：定制化和通用技术的增强是不矛盾的，反而是通用技术的增强能够促进更好的达到个性化的体验，我们已经在做很多个性化的对话体验的探索以及有很多已经落地到产品上，算法层面的话，大致可以分为几个部分：首先需要有很好的个性化画像和特征提取，此外要在全模块上引入个性化的 feature。但是实际在对话中需要关注的是上下文(短期关注点)、个性化(长期历史关注点)等多个信号应用的综合和平衡的考虑。

InfoQ：算法是 AI 的根基，近几年，深度学习算法的突破加速 AI 在各行业的落地应用，尽管“AI+”应用火热，但在底层算法能力方面，仍然面临不少挑战，在对话式 AI 智能方面，这些挑战主要表现在哪些方面，原因是什么？

谢剑： 对话式 AI 智能的挑战是多方面的，首先从目标上来看，这个事的目标是像人，甚至比人更聪明地去和用户交流（比如要比一个普通人更懂音乐等），这件事本身就是一个通用智能的问题，而当前的技术状态在实现通用智能上还是有很大一段距离的

具体来说落地到实际中的挑战，比如在音箱的场景中还以下几个方面的问题。

1）远场的语音交互下，有各种复杂的环境，噪声、多人讲话等等，很多已经超出语音识别的技术范畴，还要考虑是否是人机的对话等等。

2）由于 1 中的原因以及口语交互的问题，会有大量歧义、长尾甚至是部分识别错误的文本需要去做语义理解和满足，这就意味着原先规整的文本下就会遇到 NLP 的很多经典问题，在这个场景下会遇到，同时还有大量上述问题带来的理解挑战

3）对话是一个多轮的过程，一旦到了多轮之后整个问题空间会大大增大，结合 2 中遇到的问题就会变得更大。

InfoQ：如何解决？

谢剑：解决的方法也大致可以分为两大块：1）在算法应用上：充分的利用百度已有的海量搜索、知识图谱等先验知识提升算法的先验语义理解能力，同时充分建设对话场景下的用户数据反馈闭环，形成大数据驱动下的深度模型优化；2）在基础的底层算法突破上，和百度内部的 AI 部门联合进行很多底层技术的突破，包括大规模的预训练等。

InfoQ：预训练模型 BERT 的出现是今年 NLP 领域的重大进展，带来了里程碑式的改变。InfoQ 此前接触到的一位专家曾作出如下预测，BERT + Transformer 有可能在未来几年替代掉 NLP 各个不同应用领域之前五花八门的具体技术，或可成为 NLP 领域的大一统模型，对于这个观点，您是否同意，是或者不是，请说明理由？

谢剑： 首先 Transformer 和 BERT 还不算一回事，Transformer 是一个很好的网络 block，BERT 基于 Transformer 实际还提出了 pre-train+fine tune 的大框架，能够适用于大部分的 NLP 任务。对于这个观点，我的回答是：是，也不是。

赞同的是 pre-train+fine tune 的这个框架从思想和实践上都是一个非常好的框架，应该会逐步的被广泛的在各个任务中应用，甚至会变成一个基本的 baseline。但实际上 pre-train 还挺贵，尤其是要针对某一些场景特定的 pre-train，真正特别有效的 pre-train 也依赖大量的语料以及强大的算力，这个会导致市场实际能玩得动、且真正取得大收益的公司并不多。

不赞同的点是，在 BERT 之后的短短半年之内在 pre-train+fine tune 的大框架下，Google、Facebook 等此起彼伏的又有大量的优化甚至是不同的模型。相信未来还会有继续改进的空间，尤其 pre-train 如何能够更好的刻画知识。

InfoQ：接下来，您所负责的业务及团队还将有哪些规划？

谢剑：在未来的规划上，有一个非常重要的方面就如你上面提到的“充分考虑个性化”的因素，而且不单单是个性化的推荐上，而是要把个性化贯穿到整个系统上，包括语义理解上充分的考虑 user model 等。

发布

暂无评论

创作场景

从百度度秘看对话式 AI 发展：个性化定制和通用技术的增强并不矛盾

评论

笔记：《如何系统思考》之如何应用系统思考

如何用一套引擎搞定机器学习全流程？

英语学习中听和说的区别

Dart 进阶 | 深入理解 Function & Closure

解决 Django 多进程下，logging 记录日志错乱问题

比AtomicLong更优秀的LongAdder确定不来了解一下吗？

中小企业如何做运维自动化？

回“疫”录（20）：世界从来不会欺负听话的人

CentOS 6 升级 glibc

写作对我的意义

如何搞定Kafka重复消费？

《零基础学 Java》 FAQ 之 8-Java方法调用是传值还是传引用

识别代码中的坏味道（二）

Android | Tangram动态页面之路（三）使用

一文带你了解 HTTP 黑科技

一想到有95%的问题还没解决，我就calm down了

如何发布一个npm包-创建，发布，更新，撤销及常见问题解决

华为“补洞”：去年重新设计超过6000万行代码

用原理认知世界，用情绪驱动行为

新mac笔记本需要做的事情

Jenkins权限管理

汉字不能编程？别闹了，只是看着有点豪横！容易被开除！

2020第一篇技术博客

写在开头

PhotoShop切图，一篇文章就够用了

MySQL事务解析

Design Sprint 教你五天完成产品迭代

走进Golang之编译器原理

谈谈控制感（6）：虚幻的控制感也好用

键入网址后，其间发生了什么？

JAVA内存模型与线程

创作场景

从百度度秘看对话式 AI 发展：个性化定制和通用技术的增强并不矛盾

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载