写点什么

阿里开源新一代人机对话模型 ESIM,曾创下人机对话准确率新纪录

  • 2019-07-06
  • 本文字数:1666 字

    阅读完需:约 5 分钟

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月,阿里云栖大会武汉峰会上一段机器人点单的视频火了,阿里巴巴的收银机器人仅用了49秒就搞定了30多杯咖啡的订单


演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。


这项技术的背后支撑,就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。


该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发,曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至 94.1%。


注:DSTC 是学术界权威对话系统评测大赛,由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起,今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力,要求 AI 根据给定的多轮人机对话历史,从成百到上万个句子中选出正确的回复。


今天,阿里达摩院宣布,即日起向全世界企业与个人开源 ESIM 模型。


GitHub 地址:https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达,ESIM 给 AI 装上一套“雷达”系统,赋予它实时检索对话历史、自动去除干扰信息的能力,使它能够给出人类期待的回复。


ESIM 模型全称是:Enhanced LSTM for Natural Language Inference,是一种转为自然语言推断而生的加强版 LSTM,其架构图如下图所示(ESIM 是左边一部分):



ESIM 模型主要由 input encoding,local inference modeling 和 inference composition 三个部分组成,会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。


大致流程是这样:


输入两句话分别接入 embeding + BiLSTM,使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系,可以理解成这是在 word embedding 之后,在当前的语境下重新编码,得到新的 embeding 向量。



之后计算两个句子 word 之间的相似度,得到二维的相似度矩阵,再进行两句话的 local inference。用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子,维度保持不变,公式表示为:



在 local inference 之后,进行 Enhancement of local inference information,分别计算差与乘积,之后再进行聚合操作:



最后,再一次用 BiLSTM 提炼上下文信息,同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。



在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。


论文地址:https://arxiv.org/pdf/1901.02609.pdf


据阿里巴巴方面介绍,ESIM 人机对话回复模型,比起业界使用最为广泛的 LSTM 模型,回复准确率更高。采用全新 ESIM 模型的人机对话回复模型,比 LSTM 模型回复准确率提升 25%。


InfoQ 还了解到,该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化,比如智能客服、任务型对话系统等等,这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。


基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上,阿里巴巴构建了一系列语音交互应用。


在传统语音交互产品方面,阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。


在下一代人机交互产品方面,阿里已经落地语音售票机,部署在上海地铁供市民使用;肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机,并已经率先在杭州云栖上岗服务。



2019-07-06 08:004837
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 286.8 次阅读, 收获喜欢 1303 次。

关注

评论 1 条评论

发布
用户头像
可否把天猫精灵先升下级,用习惯了还是很方便的
2019-07-06 12:18
回复
没有更多了
发现更多内容

铭文市场火出圈,XRC-20有望继续演绎铭文市场神话

西柚子

铭文市场火出圈,XRC-20有望继续演绎铭文市场神话

小哈区块

深度解读GPTs的创建,搜索以及高级选项到底怎么用

Bob Lin

openai ChatGPT GPT-4 #LangChain GPTs

软件测试/人工智能丨知识图谱与模型驱动测试介绍及应用领域概述

测试人

人工智能 软件测试

ETLCloud的应用策略——实时数据处理是关键

RestCloud

ETL 实时数据

1688订单详情API介绍(item_get-获得1688商品详情)

技术冰糖葫芦

API 接口

OpenHarmony打造下一代智能终端操作系统根社区,繁茂人才生态

新消费日报

11月 Web3 游戏行业概览:市场回暖,未来趋势

Footprint Analytics

区块链游戏 gamefi web3游戏

共建开源新里程:北京航空航天大学OpenHarmony技术俱乐部正式揭牌成立

科技热闻

为什么有些程序员敲代码这么慢?

秃头小帅oi

一文掌握Ascend C孪生调试

华为云开发者联盟

人工智能 华为云 昇腾CANN 华为云开发者联盟 孪生调试

Android开发中如何进行单元测试?

树上有只程序猿

android 单元测试

Java多线程系列6:管程

BigBang!

Java多线程

数字化转型对企业有什么好处?

天津汇柏科技有限公司

数字化转型

Python多进程处理的高级应用场景

技术冰糖葫芦

API 接口

统一门户开发框架之:小程序技术高效引入第三方生态

Speedoooo

统一门户 小程序技术 统一门户技术架构

软件测试/人工智能丨如何使用知识图谱实现精准测试效果

测试人

人工智能 软件测试

探索绿色之道:英特尔助力联想打造零碳智造工厂

E科讯

边缘计算系统设计与实践

不在线第一只蜗牛

边缘计算 系统框架

区块链加持卡奥斯天彩抽奖平台,现邀您免费抽奖!海量奖品等你薅

Openlab_cosmoplat

抽奖

详细解释云平台的可扩展性和灵活性

天翼云开发者社区

云计算 云平台

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录_AI&大模型_陈思_InfoQ精选文章