写点什么

从 Alexa 犯下的错说开去

  • 2018-08-05
  • 本文字数:3411 字

    阅读完需:约 11 分钟

AI 前线导读:最近各款智能音箱如雨后春笋涌现海内外,这些智能音箱都有个“唤醒词”,比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧,有问有答的。智能音箱的工作方式是这样的:唤醒→响应→输入→理解→反馈。但是,在唤醒这个环节,却出现了一些问题,让我们看看事实真相到底如何?

虽然 Amazon 的“唤醒词”功能提高了用户的隐私,但它也带来了自身的挑战,比如 Alexa 录下一段私人对话,未经用户同意就发送出去。

最近,Amazon 的一款 Echo 设备记录了一名用户的私人谈话,并在未经用户知情和同意的情况下,将这段对话发送了他们的一个联系人。这起事件,再次引发了公众对智能音箱的安全性和隐私性的担忧。然而,后来真相大白,Alexa 的这一怪异行为并不是什么阴谋,而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称:“由于背景对话中有一个词听起来像‘Alexa’,结果 Echo 被触发唤醒了。然后,随后的对话内容就被当做是‘发送信息’的请求了。这时,Alexa 大声地问道:‘发给谁?’,然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道,‘某某某,对吗?’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生,但我们正在评估各种选项,减少这一情况的出现。”

这是一种极端例子,这种情况很少发生。但这也是一项有趣的研究,研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令,像 Echo 和 Google Home 等智能音箱依赖于深度学习算法,需要大量的计算能力。由于它们没有用于本地执行任务的计算资源,因此,它们必须将数据发送到制造商的云服务器,在云服务器中,人工智能算法将语音数据转换为文本并处理命令。

但是,智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上,因为这样做的话,势必会要求制造商在服务器上存储过多的数据,而其中大部分数据都没有用。而且,意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险,并可能给制造商带来麻烦,尤其是在新颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样:只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后,它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私,但它也带来了自身的挑战,最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示:“如果‘wake’一词,或者听起来非常像它的东西,在谈话途中被发送的话,那么 Alexa 就不会有任何之前的上下文内容。这个时候,对那些你所设置的技能(Alexa Skills)相关的任何命令(比如短信应用),它听起来就非常困难。在大多数情况下,通过限制 Alexa 关注的上下文内容(因为它没有记录或聆听你的任何正常对话),隐私可以得到极大的提高,虽然这种情况适得其反。”

译注: Alexa 技能(Alexa Skills),允许你将第三方应用添加到 Alexa,就好比将应用添加到你的智能手机一样,详情可参阅 The Best Amazon Alexa Skills https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用,一些硬件制造商已经创建了专门用于执行人工智能任务的处理器,而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话,而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外,在理解人类对话中的细微差别中,Amazon 的人工智能颇有“力有未逮”之感。

March 说道:“虽然过去几年里,我们在深度学习方面取得了巨大的进步,但是,要想让软件比以前更好地理解语音和图像,仍然还是有很多限制的。虽然语音助理可以识别你所说的内容,但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的,但今天,任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如,就我们人类而言,有很多方法来确定一个句子是不是针对我们,比如语调,或者跟随视觉线索(如讲话者的目光方向)。

相比之下,Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于,我们夸大了当前人工智能应用的能力,总是说它们与人类智力水平相当,甚至高于人类,并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时,我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示:“这个问题的部分原因在于,‘人工智能’一词在市场上的营销力度如此之大,以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明,Alexa 有很多能力,并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说:“人类水平的人工智能有一个关键特征,就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素,对人工智能的发展至关重要。创造出具有自我意识的数字助理,让它们充分了解人性,将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是,创造出人类水平的人工智能(也称为通用人工智能)谈何容易!几十年来,我们一直认为它就是近在咫尺的事,只不过随着科技的进步显示出人类思维是多么复杂时,我们才因此感到了沮丧。许多专家甚至断言,实现通用人工智能是遥不可及的。

同时,狭义人工智能(如当前人工智能技术所描述的)仍然提供了许多机会,并且可以被修复以避免重复错误。需要说明的是,深度学习和机器学习仍处于萌芽阶段,像 Amazon 这样的公司还在不断更新他们的人工智能算法,以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说:“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段,因此,在这个领域中我们有很多事情可以去做。”

Moller 认为,语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中,使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒,只是因为你顺便说出了它的名字。通过足够的训练,人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能,以便在接收背景噪音时能够分辨出它们的声音,而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’,人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施,人工智能助理应该评估它们所做的决策的影响,并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施,以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说:“尽管 Amazon 报告称,Alexa 试图确认它所解释的行为,但有些行为需要更仔细地管理,并以更高的标准来确认用户的意图。人类也有同样的语音识别问题,偶尔会听到错误的请求。然而,与 Alexa 不同的是,人类更有可能确认他们是否理解不明确的请求,更重要的是,人类能够与过去的请求相比,判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用,以减少错误,但用户将不得不做出最终决定:他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明,人们愿意分享的数据量与新人工智能技术的前景存在冲突,”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是,让它更加智能的最好方法是让它侵入我们的私人谈话。因此,未来十年左右的一个关键问题是,我们将允许这些人工智能体在多大程度上窥探我们的行为呢?”

Starmind 的神经学家 Kaufmann 说,“哪个家庭会在客厅里放一个人类助理,让这个人一直聆听这个家庭任何类型的谈话呢?我们至少应该将同样的标准应用于所谓的‘人工智能’设备(如果不是更高级的话),我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接: Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

2018-08-05 18:181355
用户头像

发布了 375 篇内容, 共 185.2 次阅读, 收获喜欢 944 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

Alibaba船新出品“Java架构核心宝典”,java教程视频百度网盘

Java 程序员 后端

97 道大厂 Java 核心面试题出炉,来试试看你会几道题?

Java 程序员 后端

32 岁的我裸辞了,八年 Java 老鸟,只因薪水被应届生倒挂

Java 程序员 后端

6年开发,五面阿里,耗时3月系统梳理Java全栈知识点,劲爆

Java 程序员 后端

ACID 过时?用 Sagas 搞定数据一致性,面试字节跳动的Java工程师该怎么准备

Java 程序员 后端

AlibabaP8架构师整理,283页的Java核心资料pdf文档,学会后月薪4W没问题

Java 程序员 后端

BAT互联网大厂JAVA岗高频面试题总结,看完offer成功率再翻一番

Java 程序员 后端

20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!(1)

Java 程序员 后端

208道Java高频面试题,让你面试之路畅通无阻!,med教程入门教程

Java 程序员 后端

5份Java高级工程师Offer=1套pdf+10本书+414道大厂Java面试真题

Java 程序员 后端

5年开发经验,面试10分钟后,面试者,转疯了

Java 程序员 后端

77道Spring面试题以及参考答案(2021年最新版),java面试题加答案

Java 程序员 后端

GitHub标星139K的:“Linux系统开发教程”

收到请回复

Linux 架构 后端 计算机

BATJ真题突击:Java基础+JVM,springboot和vue实战视频

Java 程序员 后端

Bootstrap框架快速上手,这位阿里P7大牛分析总结的属实到位

Java 程序员 后端

2021首次分享面试阿里P6心得:1000字超全面试题答案解析

Java 程序员 后端

@RequestMapping属性详解 - SpringMVC高手进阶,2021金九银十

Java 程序员 后端

Apache Log4j2详解,【高级Java架构师系统学习

Java 程序员 后端

5份Java高级工程师Offer=1套pdf+10本书+414道大厂Java面试真题(1)

Java 程序员 后端

21 利用分布式消息队列降低系统耦合性,java后端项目实战

Java 程序员 后端

30天消化MyBatis源码解析笔记,吊打面试官,offer接到手软

Java 程序员 后端

4年Java程序员十面阿里终拿下offer,评级P6+年薪30-40w无股票

Java 程序员 后端

2021!阿里技术官最新发布Java零基础就业宝典,不用再怀疑人生了

Java 程序员 后端

9000字通俗易懂的讲解下Java注解,你还看不明白?,linux操作系统基础与应用答案

Java 程序员 后端

5分钟掌握JVM常用选项及相关知识,工作面试够用了,dubbo和zkeper的面试题

Java 程序员 后端

Anaconda安装,linux操作系统学习

Java 程序员 后端

20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!

Java 程序员 后端

43 道检验基础的 JavaScript 面试题,一招教你看懂Netty

Java 程序员 后端

47天洒热血复习,我成功“挤进,java多线程面试算法

Java 程序员 后端

99%的面试会问到的Redis面试题Redis面试必磕,mybatis面试题2020

Java 程序员 后端

23种设计模式与六大原则看了又忘,忘了又看?是你看的方法不对

Java 程序员 后端

从Alexa犯下的错说开去_AI&大模型_Ben Dickson_InfoQ精选文章