阿里开源新一代人机对话模型ESIM，曾创下人机对话准确率新纪录_AI&大模型_陈思

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月，阿里云栖大会武汉峰会上一段机器人点单的视频火了，阿里巴巴的收银机器人仅用了49秒就搞定了30多杯咖啡的订单：

演示环节中，包含了修改、删除、加单等多轮对话，在整个交流过程中，顾客不需要说”hi，点单机“之类呆板的唤醒词，可直接下单，更符合人与人的自然对话。

这项技术的背后支撑，就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。

该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发，曾在国际顶级对话系统评测大赛（DSTC7）上获得双料冠军，将人机对话准确率的世界纪录提升至 94.1%。

注：DSTC 是学术界权威对话系统评测大赛，由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起，今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力，要求 AI 根据给定的多轮人机对话历史，从成百到上万个句子中选出正确的回复。

今天，阿里达摩院宣布，即日起向全世界企业与个人开源 ESIM 模型。

GitHub 地址：https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能，是人机交互中最复杂也最重要的技术，曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达，ESIM 给 AI 装上一套“雷达”系统，赋予它实时检索对话历史、自动去除干扰信息的能力，使它能够给出人类期待的回复。

ESIM 模型全称是：Enhanced LSTM for Natural Language Inference，是一种转为自然语言推断而生的加强版 LSTM，其架构图如下图所示（ESIM 是左边一部分）：

ESIM 模型主要由 input encoding，local inference modeling 和 inference composition 三个部分组成，会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模，不再依赖子任务的模型和它们的级联，这样极大地减少了各个子任务之间的错误积累和传递。

大致流程是这样：

输入两句话分别接入 embeding + BiLSTM，使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系，可以理解成这是在 word embedding 之后，在当前的语境下重新编码，得到新的 embeding 向量。

之后计算两个句子 word 之间的相似度，得到二维的相似度矩阵，再进行两句话的 local inference。用之前得到的相似度矩阵，结合 a，b 两句话，互相生成彼此相似性加权后的句子，维度保持不变，公式表示为：

在 local inference 之后，进行 Enhancement of local inference information，分别计算差与乘积，之后再进行聚合操作：

最后，再一次用 BiLSTM 提炼上下文信息，同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。

在架构上，该方案将算法和业务分离，使用业务知识图谱有效地表达业务相关的知识，利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系，利用业务知识图谱表达业务逻辑，对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。这样一方面整个系统只需要少量端到端的数据标注进行训练，大大减少了标注压力；另一方面由于知识图谱的松耦合度，使得扩展到新的业务变得更为便捷。

论文地址：https://arxiv.org/pdf/1901.02609.pdf

据阿里巴巴方面介绍，ESIM 人机对话回复模型，比起业界使用最为广泛的 LSTM 模型，回复准确率更高。采用全新 ESIM 模型的人机对话回复模型，比 LSTM 模型回复准确率提升 25%。

InfoQ 还了解到，该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化，比如智能客服、任务型对话系统等等，这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。

基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上，阿里巴巴构建了一系列语音交互应用。

在传统语音交互产品方面，阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图，触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。

在下一代人机交互产品方面，阿里已经落地语音售票机，部署在上海地铁供市民使用；肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机，并已经率先在杭州云栖上岗服务。

评论 1 条评论

发布

物来顺应₂₀₁₈

可否把天猫精灵先升下级，用习惯了还是很方便的

2019-07-06 12:18

 0 回复

没有更多了

创作场景

阿里开源新一代人机对话模型 ESIM，曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

技术原理解析

评论 1 条评论

前端培训中应该怎么学习web前端

大数据培训前景怎么样？

移动跨平台技术方案选型建议

KVC原理与数据筛选

谈谈我工作中的23个设计模式

教育机构客户管理系统功能方案详解！

如何在几百万qps的网关服务中实现灵活调度策略

Function源码解析与实践

跨境电商ERP也爆单，分布式新型数据库迎战

PGL图学习之基于GNN模型新冠疫苗任务[系列九]

异常捕获中finally和return的用法

1亿条数据批量插入 MySQL，哪种方式最快？

预告｜2022 星策 Summit 首批嘉宾确认，大会火热报名中！

前端哪个培训学习比较好？

技术实战：初创项目前端框架选型

W3C发布小程序技术标准白皮书

华夏天信携手华为云开天aPaaS，打造安全、高效、节能的主煤流运输系统

小程序插件和小程序组件，有区别？

元宇宙赛道逐渐清晰，虚实世界如何“破壁”？

行业分析| 实时音视频的多种用法

火山引擎VeDI推出这款产品助力企业实现以“人”为中心的数据洞察

MobPush for HarmonyOS

ShareSDK Android端权限说明

报名即将结束！11 大云原生领域开源技术干货一场拿下

大数据培训程序员都去做什么了

SQL面试 100 问

什么？Coolbpf 不仅可以远程编译，还可以发现网络抖动！ | 龙蜥技术

上新啦KIT

移动跨端框架发展史及优劣对比

web前端培训学习后还有做前端开发的吗

云原生微服务治理技术朝无代理架构的演进之路

创作场景

阿里开源新一代人机对话模型 ESIM，曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

技术原理解析

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载