写点什么

Meta 宣布 CAIRaoke 项目:通过在对话式人工智能方面的突破打造未来语音助手

  • 2022-06-10
  • 本文字数:3975 字

    阅读完需:约 13 分钟

Meta宣布CAIRaoke 项目:通过在对话式人工智能方面的突破打造未来语音助手

如果我们能够用自然的对话方式和人工智能助手进行交流,就如同我们和人类的交流,那么我们的生活将会变得更加方便。然而,不管我们是用语音还是文字进行交流,今天的语音助手都不能让人印象深刻。


为了实现这一目标,我们非常荣幸地向大家宣布 CAIRaoke 项目。我们已经开发出一种端到端的神经模型,它能支持更加个性化和上下文的对话。我们已经将 CAIRaoke 项目所生成的模型应用到我们的产品 Portal,目的是将其与 VR 和 AR 结合起来,这样将来就可以和语音助手进行沉浸式、多模态的交互。


对于更好的对话式人工智能来说,最大的障碍也许是为当今最先进的助手赋能的架构。尽管这些系统仅提供一种服务,但是它们实际上是由四大组件组成:自然语言理解(natural language understanding,NLU)、对话状态跟踪(dialog state tracking,DST)、对话策略(dialog policy,DP)管理和自然语言生成(natural language generation,NLG)。然后,这些不同的人工智能系统需要相互连接,因此很难进行优化,不能很好地适应新的或者陌生的任务,并且高度依赖劳动密集型的注释数据集。


正因为如此,如今支持大部分设备的数字助理才会将用户限制在有限的选择范围内,而忘记了对话的上下文,并且大部分时间都是按照规定的对话流程来进行。举例来说,你可能会问助手关于本地天气预报的问题,但是如果你追问了一个简单却意想不到的问题,比如说,“今天是不是比上个礼拜还热啊?”助手就会感到困惑。


利用 CAIRaoke 项目所创建的模型,用户可以与他们的对话助手进行自然的交谈,这样它们就可以在谈话中引用以前的内容,彻底改变谈话的主题,或提及需要理解复杂而微妙的上下文内容。它们也可以用新的方法来和他们交流,比如用手势。


我们已经开始在 Portal(Meta 的视频通话设备)上应用这个模型,使得创建和管理提醒变得更加方便。比如,你可以快速澄清像下面这样的请求,而无需重复:


👩: 设置 6:30 的提醒。


✅:是在早上还是晚上?


👩: 在晚上,就叫买鸡蛋吧。


✅:好的,你的买鸡蛋提醒设置为明天下午 6:30。


即使在这个早期的测试中,我们也相信这个模型优于标准方法。在 Portal 上,我们观察到,与我们现有的方法相比,在提醒领域的评估方面有了显著的改进,这是通过完成一组提醒目标的成功率来衡量的,同时保持了正常的回合次数。


但是,这仅仅是使用这项新技术的一个开始。我们坚信,CAIRaoke 项目所取得的进展,将会让我们在人类和人工智能之间进行更加广泛的沟通,而这将成为我们为元宇宙构建的一个重要工具。内置在 AR 眼镜中的 CAIRaoke 项目助手,有朝一日可能会以许多新的、有用的方式继续下去。例如,当你问助手:“这条裤子搭配什么衣服好看?”它会回答:“这里有一件你最喜欢的颜色,红色的衬衫。”并显示它为你找到的物品图像。如果你说,“我喜欢这件,但条纹太宽了”,它就会向你显示一个细条纹的版本。


在未来,我们希望能够利用这个项目所生成的模型,为世界各地数以百万计的人提供类似的日常应用。


构建真正的交互对话


对话式人工智能的推进,一个必不可少的步骤就是要全面理解问题。很多人都看到了近年来 BERT 和 GPT-3 等在自然语言理解上的巨大进步,他们相信,理解和生成和人类一样的文本的问题已经被克服了。要搞明白为何我们至今仍未解决这个问题,我们就得将用于理解的人工智能和用户交互的人工智能区分开来。前者在整个行业得到了很好的研究和发展。它可以从各种输入模式中提取意义,比如自动语音识别、图像分类和自然语言理解。而后者则是我们怎样运用自己对这个世界的认识,运用技术来和他人进行交流。它可以是发送文本、语音指令、触觉反馈、显示图像、视频、头像表情,或者所有这些的组合。


整个行业的研究人员和工程师一致认为,良好的对话系统必须有一套牢固的、基于人工智能模型的理解层。但是很多人把交互看作是一个工程学的问题,而非人工智能的问题。这样,一个了解世界状况的工程师就能创造出一套精心设计的逻辑来应对所需要的交互。这样的工程方法可以让人们更好地了解该系统的工作原理,并且在需要时能够迅速地进行逻调试。但是,这个普遍的信念会使对话式人工智能不那么强大,这就是为什么你无法通过这种助手来轻松规划假日。

一种新的、统一的方法


这些示例对话展示了我们希望助手具备的关键技能:不仅仅是提供准确的、最新的现实世界的知识,还包括多模态的工作(在这种情况下,跨越视觉和语音),跨领域的工作(发送信息,同时估计你的到达时间),以及让你推动对话,而不是需要遵循僵化的对话模板。


人工智能助手的规范方法需要四套输入和输出:管道的每一层(自然语言理解、对话状态跟踪、对话策略和自然语言生成)各有一套。同时,也要求为每一层的输入和输出定义标准。比如,对于自然语言理解,传统的对话式人工智能系统需要定义本体(例如各种意图和实体)。


但是,我们的模型采用了神经网络,根本不需要规定对话流程。有了这个模型,我们只需要一组训练数据。


CAIRaoke 项目减少了增加一个新领域所需的工作。在规范方法中,扩展到一个新的领域需要依次构建和修复每个模块,然后才能可靠地训练下一个模块。换句话说,如果自然语言理解和对话状态跟踪每天都在变化,那么训练对话策略就无法有效进行。其中一个组件的变化可能会导致其他组件的损坏,从而引发对随后的所有模块的重新训练。这种相互依赖性会使后续模块进度变慢。但是,我们采用了端到端的技术,消除了对上游模块的这种依赖性,从而加快开发和训练的速度,让我们可以在较小的工作量和较少的数据的情况下,对其他模型进行微调。


有了我们的新方法,对话会变得更加稳健,因为它们能够通过在一个地方查看全方位的信息,从而作出决策。在此之前,甚至在某个组件上的一些微小的错误,都可能以意想不到的、难以解决的方式传播到其他组件上。比如,现在,基于规则的助手被明确编程为寻找特定的单词或短语:在一个数字后面跟着的“p.m.”表示下午,而 CAIRaoke 项目利用先进的预训练语言模型,可以更好地理解上下文,并且能够辨别出说同一事物的不同方式。


最后,CAIRaoke 项目融合了支持 Meta AI 最新对话机器人的技术——BlenderBot 2.0,融入面向任务的对话。这意味着使用我们的模型构建的助手能够表达有同理心的语言,实时转述通过搜索互联网找到的知识,并且显示出一致的个性。


在系统生成自然语言的过程中,存在着一些潜在的安全性和隐私权的问题。如今,大部分的自然语言生成组件都带有脚本,因此,内容管理人员可以保证助手不会给用户提供令人反感的回应。但由于助手直接与用户相连,就有可能出现错误或令人反感的互动。


当系统生成自然语言时,必须解决潜在的安全和隐私挑战。今天,大多数自然语言生成组件都是有脚本的,这样内容管理者就能确保助手不会向用户提供令人反感的回应。但是,通过将助手直接与用户相连,就有可能出现错误或令人反感的互动,这一点已经广泛地被公众所看到, 饱受诟病。


重要的是,我们已经合并内置于 BlenderBot 中的安全措施,这将有助于减少攻击性反应的发生。在开发助手技术的时候,我们还把隐私问题考虑了进去。比如,在 Ray-Ban Stories 和 Portal 语音命令的使用是可选的选项,你可以查看和删除你的语音命令的记录,而且你还可以随时关闭语音存储。


为了减少对用户产生不良反应的风险,CAIRaoke 项目的第一个里程碑是同时生成对话动作和自然语言。在短期内,我们生成对话动作,并依靠一个经过测试和严格约束的自然语言生成系统来提供用户回应。从长远来看,在确保我们模型的端到端完整性之后,我们将公开所生成的语句。


另一个问题,也是其他种类的自然语言处理系统所共有的,那就是幻觉,即当一个模型自信地说出不正确的信息。这对端到端技术是一个巨大的挑战,因为在会话中,模型可以很轻易地将实体引入或者修改。例如,你让助手“设置一个给 Ankita 打电话的提醒”,它可能会设置一个给 Ankit 打电话的提醒,因为 Ankita 是一个不太常见的名字。我们使用了各种数据增强技术和注意力网络来增加 CAIRaoke 项目的健壮性,并利用我们与 BlenderBot 2.0 的工作来减少幻觉。

使用语音完成无数的日常任务


虽然我们对 CAIRaoke 项目模型的短期实施是在 Portal 上的提醒,但我们期望不久就会应用到更广泛的地方,这将帮助人们的购物体验个性化,让助手可以在大量的交谈中保持上下文,让人们可以继续进行交流。


我们也相信,这项进步尤其有助于构建以人工智能为基础的对话能力。在不远的将来,人们会像现在智能音箱、智能手表等其他设备那样,经常在 AR 眼镜上使用语音助手。鉴于此,我们正致力于缩小像这样的端到端的模型大小,使其适合在设备上使用,因为设备上的模型还能提供额外的安全、隐私和性能上的优势。我们也正在尝试让模型更易于调试,这是一项非常复杂的挑战,因为在新的框架中,信息以嵌入空间的形式表示,而在规范模型中则是显式的。为了让 CAIRaoke 项目能够完全实现,我们还必须把它推广到很多种语言中,并且寻找一种可以在亿级规模上高效应用这种模型的方法。


我们可以设想,在未来的数年内,CAIRaoke 项目的技术将会成为人们与设备间下一代交互的基石。在 VR 头盔和 AR 眼镜方面,我们期望这类交流能够像触摸屏取代智能手机的键盘一样,实现无处不在的、无缝的导航和交互。我们现在的模型是向前迈出的重要一步,但是要完全达到这个目标愿景,我们仍需要付出更多的努力。我们对目前所取得的进步以及今后面临的各种挑战都感到兴奋。


作者介绍:


Alborz Geramifard,Meta AI 高级研究主管,研究对话式人工智能。曾领导过亚马逊 Alexa 的对话式人工智能团队。2008 年获阿尔伯塔大学硕士学位,2011 年活麻省理工学院博士学位,曾在麻省理工学院信息与决策系统实验室的博士后研究员。是 2010~2012 年 NSERC 研究生奖学金项目的获得者。曾担任过 EMNLP 和 ACL 的区域主席。


原文链接:


https://ai.facebook.com/blog/project-cairaoke#circle=on

2022-06-10 08:514481

评论

发布
暂无评论
发现更多内容

用DeBug的方式,带你掌握HBase文件在Snapshot的各种变化

华为云开发者联盟

HBase 元数据 数据迁移 数据备份 Snapshot

flink流计算可视化web平台

无情

sql 流计算 flin

融云X-Meetup南京站 探讨实时通信架构的高质量设计

融云 RongCloud

融云推出超值套餐包,音视频20万分钟免费享

融云 RongCloud

软件测试分类体系,系统学习

程序员阿沐

软件测试 测试工程师 黑盒测试 白盒测试 测试类型

公安重点人员管控系统搭建,智慧派出所系统

盘点几代会声会影图标

奈奈的杂社

Java程序员都要懂得知识点:原始数据类型

华为云开发者联盟

Java 字符串 StringBuffer 原始数据类型 布尔类型

阿凡提EGGNETWORK恒价通证+加密社交催生新玩法 EFTalk

币圈那点事

Github上堪称最全的面试题库(Java岗)到底有多香

钟奕礼

Java 编程 程序员 架构 面试

数字货币,已成为理解现代经济不可排斥的一个因素

CECBC

数字经济

入职字节跳动那一天,我哭了(蘑菇街被裁,奋战7个月拿下offer)

Java 编程 程序员 架构 面试

区块链版「滴滴+Uber」,让出行带来收益

CECBC

移动互联网

单片机异常复位后如何保存变量数据

不脱发的程序猿

嵌入式 单片机 4月日更 硬件研发 单片机异常复位

将AI部署到现实?或许你该读读这本书!

澳鹏Appen

人工智能 大数据 AI 伦理

荷小鱼 x mPaaS | 借助 H5 容器改善 App 白屏、浏览器兼容等问题

蚂蚁集团移动开发平台 mPaaS

html5 mPaaS 离线包 教育科技

构建用户安全评级,UGC智能化审核应用实践

爱奇艺技术产品团队

人工智能

激光雷达(LiDAR)技术

澳鹏Appen

人工智能 大数据 智能驾驶 激光雷达 点云标注

一体化智能安全防御 京东云星盾安全加速正式发布

京东科技开发者

互联网 网络安全

为什么拥有云原生数据平台对电信公司很重要?

VoltDB

云原生 5G VoltDB 电信

如何美化 GitHub 个人主页?

彭宏豪95

GitHub 写作 markdown IT 4月日更

已拿到8个Offer!阿里巴巴Java面试参考指南(泰山版)

钟奕礼

Java 编程 程序员 架构 面试

Java开发8年,40W年薪被别人叫垃圾?请你们不要口嗨了,好好去刷题吧!

Java架构追梦

Java 架构 面试 金三银四 年薪40W

Android AAC音频硬编解码你知道多少?

Engineer-Jsp

如何抓住新社交风口下的音视频通讯大潮?

融云 RongCloud

嘉楠科技发布勘智K210-MicroPython 无需寄存器手册就能上手开发

HBase底层读写过程

五分钟学大数据

HBase 4月日更

Github连夜下架!阿里新产Java全栈面试突击小册太香了

Java架构之路

Java 程序员 架构 面试 编程语言

二次元界福音:MakeGirlsMoe创建动漫人物

不脱发的程序猿

GitHub 开源 4月日更 二次元 MakeGirlsMoe

货运物流移动端解决方案:为货运物流行业打造高性能、高粘性的“双端”触点

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS 移动端 智慧物流

阿里云 RTC QoS 弱网对抗之变分辨率编码

阿里云CloudImagine

阿里云 WebRTC 分辨率 视频编解码 视频云

Meta宣布CAIRaoke 项目:通过在对话式人工智能方面的突破打造未来语音助手_AI&大模型_Alborz Geramifard_InfoQ精选文章