写点什么

从 Alexa 犯下的错说开去

  • 2018-08-05
  • 本文字数:3411 字

    阅读完需:约 11 分钟

AI 前线导读:最近各款智能音箱如雨后春笋涌现海内外,这些智能音箱都有个“唤醒词”,比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧,有问有答的。智能音箱的工作方式是这样的:唤醒→响应→输入→理解→反馈。但是,在唤醒这个环节,却出现了一些问题,让我们看看事实真相到底如何?

虽然 Amazon 的“唤醒词”功能提高了用户的隐私,但它也带来了自身的挑战,比如 Alexa 录下一段私人对话,未经用户同意就发送出去。

最近,Amazon 的一款 Echo 设备记录了一名用户的私人谈话,并在未经用户知情和同意的情况下,将这段对话发送了他们的一个联系人。这起事件,再次引发了公众对智能音箱的安全性和隐私性的担忧。然而,后来真相大白,Alexa 的这一怪异行为并不是什么阴谋,而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称:“由于背景对话中有一个词听起来像‘Alexa’,结果 Echo 被触发唤醒了。然后,随后的对话内容就被当做是‘发送信息’的请求了。这时,Alexa 大声地问道:‘发给谁?’,然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道,‘某某某,对吗?’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生,但我们正在评估各种选项,减少这一情况的出现。”

这是一种极端例子,这种情况很少发生。但这也是一项有趣的研究,研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令,像 Echo 和 Google Home 等智能音箱依赖于深度学习算法,需要大量的计算能力。由于它们没有用于本地执行任务的计算资源,因此,它们必须将数据发送到制造商的云服务器,在云服务器中,人工智能算法将语音数据转换为文本并处理命令。

但是,智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上,因为这样做的话,势必会要求制造商在服务器上存储过多的数据,而其中大部分数据都没有用。而且,意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险,并可能给制造商带来麻烦,尤其是在新颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样:只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后,它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私,但它也带来了自身的挑战,最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示:“如果‘wake’一词,或者听起来非常像它的东西,在谈话途中被发送的话,那么 Alexa 就不会有任何之前的上下文内容。这个时候,对那些你所设置的技能(Alexa Skills)相关的任何命令(比如短信应用),它听起来就非常困难。在大多数情况下,通过限制 Alexa 关注的上下文内容(因为它没有记录或聆听你的任何正常对话),隐私可以得到极大的提高,虽然这种情况适得其反。”

译注: Alexa 技能(Alexa Skills),允许你将第三方应用添加到 Alexa,就好比将应用添加到你的智能手机一样,详情可参阅 The Best Amazon Alexa Skills https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用,一些硬件制造商已经创建了专门用于执行人工智能任务的处理器,而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话,而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外,在理解人类对话中的细微差别中,Amazon 的人工智能颇有“力有未逮”之感。

March 说道:“虽然过去几年里,我们在深度学习方面取得了巨大的进步,但是,要想让软件比以前更好地理解语音和图像,仍然还是有很多限制的。虽然语音助理可以识别你所说的内容,但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的,但今天,任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如,就我们人类而言,有很多方法来确定一个句子是不是针对我们,比如语调,或者跟随视觉线索(如讲话者的目光方向)。

相比之下,Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于,我们夸大了当前人工智能应用的能力,总是说它们与人类智力水平相当,甚至高于人类,并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时,我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示:“这个问题的部分原因在于,‘人工智能’一词在市场上的营销力度如此之大,以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明,Alexa 有很多能力,并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说:“人类水平的人工智能有一个关键特征,就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素,对人工智能的发展至关重要。创造出具有自我意识的数字助理,让它们充分了解人性,将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是,创造出人类水平的人工智能(也称为通用人工智能)谈何容易!几十年来,我们一直认为它就是近在咫尺的事,只不过随着科技的进步显示出人类思维是多么复杂时,我们才因此感到了沮丧。许多专家甚至断言,实现通用人工智能是遥不可及的。

同时,狭义人工智能(如当前人工智能技术所描述的)仍然提供了许多机会,并且可以被修复以避免重复错误。需要说明的是,深度学习和机器学习仍处于萌芽阶段,像 Amazon 这样的公司还在不断更新他们的人工智能算法,以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说:“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段,因此,在这个领域中我们有很多事情可以去做。”

Moller 认为,语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中,使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒,只是因为你顺便说出了它的名字。通过足够的训练,人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能,以便在接收背景噪音时能够分辨出它们的声音,而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’,人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施,人工智能助理应该评估它们所做的决策的影响,并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施,以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说:“尽管 Amazon 报告称,Alexa 试图确认它所解释的行为,但有些行为需要更仔细地管理,并以更高的标准来确认用户的意图。人类也有同样的语音识别问题,偶尔会听到错误的请求。然而,与 Alexa 不同的是,人类更有可能确认他们是否理解不明确的请求,更重要的是,人类能够与过去的请求相比,判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用,以减少错误,但用户将不得不做出最终决定:他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明,人们愿意分享的数据量与新人工智能技术的前景存在冲突,”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是,让它更加智能的最好方法是让它侵入我们的私人谈话。因此,未来十年左右的一个关键问题是,我们将允许这些人工智能体在多大程度上窥探我们的行为呢?”

Starmind 的神经学家 Kaufmann 说,“哪个家庭会在客厅里放一个人类助理,让这个人一直聆听这个家庭任何类型的谈话呢?我们至少应该将同样的标准应用于所谓的‘人工智能’设备(如果不是更高级的话),我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接: Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

2018-08-05 18:181484
用户头像

发布了 375 篇内容, 共 192.6 次阅读, 收获喜欢 947 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

开源一夏 |【云原生】DevOps(五):集成Harbor

是Dream呀

全面认识二极管,一篇文章就够了

矜辰所致

ESD二极管 8月月更 二极管 电子设计基础 TVS二极管

百问百答第49期:极客有约——国内可观测领域SaaS产品的发展前景

博睿数据

可观测性 智能运维 博睿数据 极客有约 中信证券

这份562页的算法知识点集结刷题手册,将是你拿大厂offer的突破口

了不起的程序猿

程序员 算法 编程语言 java程序员 大厂面试

千万级QPS下服务如何才能平滑启动

HelloGeek

微服务架构 Service Mesh 高并发优化

麦聪DaaS平台 3.7.0 Release 正式发布:全面支持国际化

雨果

DaaS数据即服务

Linux Lab 编译 riscv-gnu-toolchain

贾献华

8月月更

我用这一招让团队的开发效率提升了 100%!

Liam

程序员 前端 后端 开发 API

搭建属于自己的知识库(Wikijs)

开源 wiki 知识库 8月月更

魔豹联盟:佛萨奇2.0dapp系统开发模式详情

开发微hkkf5566

Spring Boot整合Mybatis

JAVA活菩萨

Java 程序员 后端

DevOps之代码检查

凌云Cloud

DevOps 研发管理 代码检查器

从技术全景到场景实战,透析「窄带高清」的演进突破

阿里云CloudImagine

云计算 直播 视频

读书笔记之《你想过怎样的一生?》

宇宙之一粟

读书笔记 8月月更

竞赛:糖尿病遗传风险检测挑战赛(科大讯飞)

Lingxw

数据挖掘 Kaggle 8月月更

玩转云端 | 天翼云对象存储ZOS高可用的关键技术揭秘

天翼云开发者社区

云平台 云存储

发挥云网融合优势,天翼云为政企铺设数字化转型跑道

天翼云开发者社区

数字化转型 数字化基础 云网融合

企业云成本管控,你真的做对了吗?

Kyligence

云成本管控 云成本分析

MyBatis操作数据库

JAVA活菩萨

Java 程序员 后端

【CSS】基础选择器,包括标签选择器、类选择器、id选择器和通配符选择器...

翼同学

CSS html 前端 HTML5, CSS3 8月月更

KunlunBase 1.0 发布了!

KunlunBase昆仑数据库

国产数据库

开源一夏 | 计算机网络:物理层

是Dream呀

开源

深入理解IO流(第一篇)

JAVA活菩萨

Java 程序员

天翼云4.0分布式云赋能千行百业数字化转型

天翼云开发者社区

云存储 云上架构

一朵“云“如何带来产业新变革

天翼云开发者社区

云网融合

面试官:可以谈谈乐观锁和悲观锁吗

JAVA活菩萨

面试官

连续三次 | 灵雀云入选Gartner中国ICT技术成熟度曲线报告

York

云计算 云原生 数字化转型 ICT Gartner

开源一夏 | 数据结构课设:图书信息管理--顺序存储和链式存储

是Dream呀

开源

天翼云4.0来了!千城万池,无所不至!

天翼云开发者社区

云计算 云平台

开源一夏 | Web开发(七):登录实现及功能测试

是Dream呀

Mqtt开发笔记:windows下C++ ActiveMQ客户端介绍、编译和使用

JAVA活菩萨

Java 程序员 后端

从Alexa犯下的错说开去_AI&大模型_Ben Dickson_InfoQ精选文章