QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

微软发布对话数据集,旨在让聊天机器人更智能

  • 2017-05-03
  • 本文字数:1301 字

    阅读完需:约 4 分钟

Maluuba 是微软旗下一家致力于通用人工智能的公司。近日,该公司新发布了一个开放的对话数据集。该数据集基于假期预定的场景——具体来说,查找航班和宾馆。

近年来,聊天机器人的数量越来越多,尤其是自一年前Facebook 向这些机器人开放 Messenger 平台以来。目前,大多数机器人仅支持简单的顺序交互。类似旅行规划这样的高级场景对聊天机器人来说仍然很困难。借助这个数据集,Maluuba(最近被微软收购)帮助研究人员和开发人员让他们的聊天机器人更智能。

Maluuba 让两个人在聊天室中对话并收集了这些数据。一个人扮演用户,另一个人充当计算机。用户试图查找特价机票,另一个充当聊天机器人的人使用数据库检索信息。交互只包含文本(没有口语交互),研究人员有意识地选择了这个方法。大部分人都喜欢打字,而不是说话,那也就是说,这份数据集就远离了质量不高的语音识别和背景噪声。该数据集包含 1369 句有关旅行规划的对话,可以免费下载

Maluuba 还提供了一种表示对话的方式。让旅行规划更加困难的是,用户经常改变谈话主题。你可能同时讨论去滑铁卢、蒙特利尔、多伦多的计划。对于我们人类而言,将人们在交谈中制定的不同计划分开并不困难。不过,如果用户在预订之前探讨了多个选项,那么计算机往往会遇到问题。当你突然输入一个新目的地,大多数聊天机器人都会忘记你刚刚谈论的所有内容。下面左边那副图是“传统”聊天机器人的交互。当用户说出一个新城市时,机器人会忘记旧城市。右侧是微软发布的数据集中出现的一个模式:用户在做出决定之前比较多个城市。

[点击查看大图]

这就是为什么微软引入了所谓的“框”。每次用户修改了以前设置的值,向导程序就会新建一个框。每个跟踪框会记录所有用户提到的不同的约束集合。这让你可以同时谈论预定到蒙特利尔最贵 200 美元的旅行和到多伦多最贵 300 美元的旅行。这种会话记忆向着构建可以在在线旅游场景中帮助用户探讨不同航班的机器人迈进了一步。

传统的聊天机器人,就像你可以在 Pandorabots 上创建的机器人那样,会设法将对话导向所谓的“格位填充(slot-filling)”。机器人会设法在你给出的答案中找出一些属性(如名字和年龄)。一旦聊天机器人知道了这些属性,对话就会继续,机器人会设法填充下一个格位。其他公司,如被 Facebook 收购的 Wit ,已经通过“故事”把这种理念向前推进了一步。这个位于语言理解层之上的“柔性层(flexible layer)”已经创建了“让人感觉更自然的”对话。Maluuba 发布的数据集更进一步,它侧重于进行同时涉及多个主题的对话。

3 月 28 日,Tim Peterson发表了一篇文章,探讨目前聊天机器人的缺点。该数据集解决了Peterson 谈到的其中一个问题:由于聊天机器人的用户少导致聊天机器人开发人员可以获得的数据少。由于许多聊天机器人在理解自然语言时都有问题,所以开发人员经常向他们的机器人添加“快速回复”。有了这些回复,用户可以从一个机器人确定可以理解的、较小的选项集中选择他们的回复。虽然这特性个对于那些知道要说什么的用户有用,但那同时也意味着,对于那些相对不常见的用户查询,永远都不会开发相应的回复。

[点击查看大图]

查看英文原文 Microsoft Releases Dialogue Dataset to Make Chatbots Smarter

2017-05-03 19:003087
用户头像

发布了 1008 篇内容, 共 407.6 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

详解 Sqllogictest

Databend

大数据 databend Sqllogictest

SpringCloud 注册中心 (Eureka) 快速入门

微服务 Eureka SpringCould 8月月更

java程序员培训学习需要多长时间?

小谷哥

web前端培训学习应该注意什么

小谷哥

项目经理和ScrumMaster可以是同一个人吗?

ShineScrum

Scrum 敏捷 ScrumMaster 项目经理

如何快速地学习东西(下篇)

宇宙之一粟

学习方法 8月月更

建成 5000 多间「梦想中心」后,他们决定将技术开源

腾源会

开源 公益 腾源会

为什么MatrixOne 0.5变慢了

MatrixOrigin

矩阵起源 MatirxOrigin MatirxOne 因子化

2022 世界人工智能大会|人工智能与开源技术先锋论坛即将开幕

Kyligence

开源技术 人工智能大会

参加大数据培训机构学习前景怎么样

小谷哥

【小程序项目开发 --- 京东商城】 启航篇之uni-app项目搭建

计算机魔术师

8月月更

NFT平台开发:NFT数字馆藏平台开发

开源直播系统源码

数字藏品软件开发 数字藏品开发 数字藏品系统

设计模式的艺术 第十章桥接设计模式练习(设计一个数据转换工具,可以将数据库中的数据转换成多种文件格式,例如txt、xml、pdf等格式,同时该工具需要支持多种不同的数据库)

代廉洁

设计模式的艺术

另眼旁观 Linkerd 2.12 的发布:服务网格标准的曙光?

张晓辉

云原生 kuberne Linkerd 服务网格

无需编写一行代码,实现任何方法的流量防护能力

阿里巴巴云原生

阿里云 微服务 云原生 流量

如何有效改进回顾会议(下)?

敏捷开发

Scrum 回顾会 Scrum团队

深圳选择java培训机构哪家靠谱?

小谷哥

分分钟带你了解 ES2022 最重要的 4 个特性!

掘金安东尼

前端 8月月更 ES2022

【小程序项目开发-- 京东商城】uni-app开发之配置 tabBar & 窗口样式

计算机魔术师

8月月更

leetcode 227. Basic Calculator II 基本计算器 II(中等)

okokabcd

LeetCode 算法与数据结构

10大常用的排序算法(算法分析+动图演示)

Five

算法 排序算法 8月月更

研发管理 DevOps 最佳实践之三问三答

极狐GitLab

DevOps gitlab CI/CD 代码规范 gitops

蓝牙5.0简介、nRF52832 BLE样例工程框架及main函数初始化流程简析

矜辰所致

蓝牙 启动流程 8月月更 nRF52832

SpringCloud Eureka参数配置项详解

echoes

ClickHouse与Elasticsearch压测实践

京东科技开发者

elasticsearch 分布式 数据分析 Clickhouse 数据库·

选择web前端培训机构需要注意什么?

小谷哥

一文读懂数据科学Notebook

Baihai IDP

人工智能 ide AI notebook 数据科学

大厂裁员小厂跑路,是时候做这件事了,否则到时可别后悔!!!

CRMEB

Tapdata 获得阿里云首批产品生态集成认证,携手阿里云共建新合作

阿里巴巴云原生

阿里云 Serverless 云原生 SAE 合作

【小程序】view视图,swiper轮播图,scroll-view滑动列表 (在线详细手册)

计算机魔术师

8月月更

你还有什么问题吗?

AlwaysBeta

程序员 面试

微软发布对话数据集,旨在让聊天机器人更智能_微软_Roland Meertens_InfoQ精选文章