速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

微软发布对话数据集,旨在让聊天机器人更智能

  • 2017-05-03
  • 本文字数:1301 字

    阅读完需:约 4 分钟

Maluuba 是微软旗下一家致力于通用人工智能的公司。近日,该公司新发布了一个开放的对话数据集。该数据集基于假期预定的场景——具体来说,查找航班和宾馆。

近年来,聊天机器人的数量越来越多,尤其是自一年前Facebook 向这些机器人开放 Messenger 平台以来。目前,大多数机器人仅支持简单的顺序交互。类似旅行规划这样的高级场景对聊天机器人来说仍然很困难。借助这个数据集,Maluuba(最近被微软收购)帮助研究人员和开发人员让他们的聊天机器人更智能。

Maluuba 让两个人在聊天室中对话并收集了这些数据。一个人扮演用户,另一个人充当计算机。用户试图查找特价机票,另一个充当聊天机器人的人使用数据库检索信息。交互只包含文本(没有口语交互),研究人员有意识地选择了这个方法。大部分人都喜欢打字,而不是说话,那也就是说,这份数据集就远离了质量不高的语音识别和背景噪声。该数据集包含 1369 句有关旅行规划的对话,可以免费下载

Maluuba 还提供了一种表示对话的方式。让旅行规划更加困难的是,用户经常改变谈话主题。你可能同时讨论去滑铁卢、蒙特利尔、多伦多的计划。对于我们人类而言,将人们在交谈中制定的不同计划分开并不困难。不过,如果用户在预订之前探讨了多个选项,那么计算机往往会遇到问题。当你突然输入一个新目的地,大多数聊天机器人都会忘记你刚刚谈论的所有内容。下面左边那副图是“传统”聊天机器人的交互。当用户说出一个新城市时,机器人会忘记旧城市。右侧是微软发布的数据集中出现的一个模式:用户在做出决定之前比较多个城市。

[点击查看大图]

这就是为什么微软引入了所谓的“框”。每次用户修改了以前设置的值,向导程序就会新建一个框。每个跟踪框会记录所有用户提到的不同的约束集合。这让你可以同时谈论预定到蒙特利尔最贵 200 美元的旅行和到多伦多最贵 300 美元的旅行。这种会话记忆向着构建可以在在线旅游场景中帮助用户探讨不同航班的机器人迈进了一步。

传统的聊天机器人,就像你可以在 Pandorabots 上创建的机器人那样,会设法将对话导向所谓的“格位填充(slot-filling)”。机器人会设法在你给出的答案中找出一些属性(如名字和年龄)。一旦聊天机器人知道了这些属性,对话就会继续,机器人会设法填充下一个格位。其他公司,如被 Facebook 收购的 Wit ,已经通过“故事”把这种理念向前推进了一步。这个位于语言理解层之上的“柔性层(flexible layer)”已经创建了“让人感觉更自然的”对话。Maluuba 发布的数据集更进一步,它侧重于进行同时涉及多个主题的对话。

3 月 28 日,Tim Peterson发表了一篇文章,探讨目前聊天机器人的缺点。该数据集解决了Peterson 谈到的其中一个问题:由于聊天机器人的用户少导致聊天机器人开发人员可以获得的数据少。由于许多聊天机器人在理解自然语言时都有问题,所以开发人员经常向他们的机器人添加“快速回复”。有了这些回复,用户可以从一个机器人确定可以理解的、较小的选项集中选择他们的回复。虽然这特性个对于那些知道要说什么的用户有用,但那同时也意味着,对于那些相对不常见的用户查询,永远都不会开发相应的回复。

[点击查看大图]

查看英文原文 Microsoft Releases Dialogue Dataset to Make Chatbots Smarter

2017-05-03 19:002930
用户头像

发布了 1008 篇内容, 共 392.5 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

一种Mysql和Mongodb数据同步到Elasticsearch的实现办法和系统

天翼云开发者社区

MySQL 数据库

行业独家 | 腾讯云ES:PB日志查询大提速,自治索引查询裁剪详解!

腾讯云大数据

ES

云网翼连智算未来| 重温天翼云全球行•亚太站精彩盛况

天翼云开发者社区

云计算

深入Vue.js与TypeScript的生命周期

K8sCat

vue.js 生命周期

文心一言 VS 讯飞星火 VS chatgpt (129)-- 算法导论11.1 4题

福大大架构师每日一题

福大大架构师每日一题

私域流量搭建与运营,全是技巧攻略!

鲸品堂

运营 流量 企业号11月PK榜

Amazon EC2 云服务器体验感爆了

归来

Amazon EC2 云服务器

sip中继的介绍

cts喜友科技

SIP

向量数据库的崛起与多元化场景创新

向量数据库

基金会旗下铜锁/Tongsuo项目官宣密钥管理工具RustyVault正式开源

开放原子开源基金会

开源 铜锁

“数据”如何影响“业务决策” ?

高端章鱼哥

数字化 数据可视化

星河共创,开为科技加入飞桨大模型生态圈,共建营销应用新范式

飞桨PaddlePaddle

深度学习 飞桨 文心大模型

第十五届全国交通运输领域青年学术会议,和鲸 Heywhale 携手龙船科技联合发布科研服务解决方案

ModelWhale

数据 服务 解决方案 交通运输 科研

Paste for Mac(剪切板历史管理工具)v4.1.2永久激活版

mac

苹果mac Windows软件 Paste 剪切板软件

这可能是全网最晚的低代码技术总结

互联网工科生

低代码 低代码平台

Windows、Linux 和 Mac三个操作系统的对比

小魏写代码

领跑中国APM市场,博睿数据蝉联第一!

博睿数据

运维 监控 可观测性

和鲸为神经计算建模及编程培训班提供支持,聚焦学术前沿,助力人才培养

ModelWhale

编程 培训 脑科学 建模 计算神经科学

软件测试/测试开发丨如何利用ChatGPT自动生成测试用例思维导图

测试人

软件测试

sip中继是什么意思

cts喜友科技

SIP

云图说|分钟级构建业务大屏——Astro大屏应用

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云云图说 华为云Astro

第二届开放原子开源基金会OpenHarmony技术大会圆满举行

开放原子开源基金会

开源 OpenHarmony

人民邮电出版社70周年庆暨异步社区8周年庆成功举办,和鲸Heywhale荣获异步社区“2023年度最佳合作伙伴”奖

ModelWhale

IT 数据科学 书籍出版 异步社区 人民邮电出版社

macOS苹果电脑终端SSH管理工具中文激活版Termius

iMac小白

Termius下载 Termius for Mac下载 Termius for Mac破解

AI 女友突然下线,大叔集体「崩溃」;谷歌聊天机器人称谷歌滥用垄断力量丨 RTE 开发者日报 Vol.78

声网

软件测试/测试开发丨Python安装指南(Windows版)

测试人

Python 软件测试

视频直播场景下对象存储的应用

天翼云开发者社区

对象存储

搭建二维码系统,轻松实现固定资产的一物一码管理

草料二维码

微软发布对话数据集,旨在让聊天机器人更智能_微软_Roland Meertens_InfoQ精选文章