写点什么

在亚马逊 Alexa 内部聊天室,你的录音可能正在被分享、传播

  • 2019-04-11
  • 本文字数:2887 字

    阅读完需:约 9 分钟

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播

亚马逊智能助手传出窃听事件已不是一两次,这次,彭博社再次爆料亚马逊智能音箱 Alexa 的工作人员正在监听用户和智能音箱之间的对话,并深入 Alexa 罗马尼亚办事处,从内部审核人员口中得到更多不为人知的秘密。


亚马逊公司(Amazon.com Inc.)在全球拥有数千名员工,帮助改进 Alexa 数字助理,打造 Echo 音箱系列。这个团队会监听 Echo 在主人家中和办公室中的录音。录音被转录、注释,然后反馈到软件中,以消除 Alexa 对人类语音理解的误差,并帮助它更好地响应命令。


据 7 名参与该计划的人员描述,Alexa 语音审核流程突出了训练软件算法中经常被忽视的人类角色的功能。在营销材料中亚马逊表示,Alexa“活在云端,并且越来越聪明。”但是,就像许多为了从经验中学习而构建的软件工具一样,它们需要人类的教学。


据知情人士称,该团队由承包商和全职亚马逊员工组成,他们在从波士顿到哥斯达黎加、印度和罗马尼亚的第一线工作。他们签署了保密协议,禁止公开谈论该计划。亚马逊位于罗马尼亚首都布加勒斯特正在崛起的 Pipera 区的办公室,占据了 Globalworth 大楼最顶层的三层楼,据这里办事处的两名工作人员说,他们每天工作 9 小时,每位审核人员每次轮班解析多达 1,000 个音频片段。现代化的设施在周围破败的建筑物中十分显眼,但并没有宣示亚马逊存在的标志。


这项工程大多是平凡的工作组成。波士顿的一名工作人员表示,他负责为特定的词语(如“泰勒斯威夫特”)挖掘累积的语音数据,并对其进行注释,以保证搜索是指这位音乐艺术家。有时,他们会听到 Echo 主人更愿意保密的信息:一个女人在洗澡时唱着严重跑调的歌,或者一个孩子尖叫着寻求帮助。在需要帮助解析混乱的单词,或听到有趣的录音时,团队会在内部聊天室共享文件。



亚马逊在布加勒斯特的办事处 来源:Bloomberg


有时他们会听到令人不安或可能是犯罪的录音。其中两名工人表示他们听到了可能是性侵犯的行为。当这样的事情发生时,他们可能会在内部聊天室进行分享以缓解压力。亚马逊表示,他们设置了工作人员听到令人痛苦的事情时的处理程序,但两名罗马尼亚员工表示,在要求对此类事件提供指导后,他们被告知亚马逊不应该进行干预。


“我们认真对待客户个人信息的安全和隐私,”亚马逊发言人在一封电子邮件声明中表示。“我们只会注释一小部分 Alexa 录音,以便改善客户体验。例如,这些信息有助于我们训练语音识别和自然语言理解系统,让 Alexa 可以更好地了解您的请求,并确保服务适合每个人。”


“我们有严格的技术和操作保障措施,对滥用我们的系统采取零容忍政策。对于可以识别用户身份或帐户信息的工作流程,员工无法直接访问。所有信息都具有高度机密性,我们使用多因素身份验证、服务加密和审核控制环境来限制访问。“


亚马逊在其营销和隐私政策材料中没有明确表示员工正在监听 Alexa 收集的一些对话的录音。“我们使用您对 Alexa 的请求来训练我们的语音识别和自然语言理解系统,”该公司在一系列常见问题中回应。


在 Alexa 的隐私设置中,该公司为用户提供了禁止使用其录音来开发新功能的选项。彭博社的屏幕截图显示,发送给 Alexa 审核员的记录不包括用户的全名和地址,但有帐号、用户的名字和设备的序列号信息。


Intercept 今年早些时候报道称,亚马逊收购的智能家居公司 Ring 的员工可以手动识别门铃摄像头拍摄视频中的车辆和人,以更好地训练软件自主完成任务。


密歇根大学教授弗洛里安·绍布(Florian Schaub)曾研究过与智能音箱有关的隐私问题,他说:“你可能不知道,当你在家里和亲人谈话时,有另一个人正在监听。我认为我们已经习惯于[假设]这些机器正在进行某种神奇的机器学习。但事实是这仍然涉及手动处理。“


“这是否属于隐私问题取决于亚马逊和其他公司对其手动注释信息类型的谨慎程度,以及他们如何向某人提供这些信息,”他补充道。


当 Echo 于 2014 年首次亮相时,亚马逊的圆柱形智能音箱迅速让家庭智能语音软件流行起来。不久之后,Alphabet 公司推出 Google Home,其次是苹果的 HomePod。各种公司也在中国销售设备。据研究人员 Canalys 称,去年全球消费者购买了 7800 万智能音箱。还有数百万人使用语音软件与智能手机上的数字助理进行互动。


Alexa 软件的设计会让它持续记录音频片段,聆听唤醒词。默认情况下,唤醒词是“Alexa”,但人们可以将其更改为“Echo”或“computer”当检测到唤醒词时,Echo 顶部的灯环变为蓝色,表示设备正在录制并向亚马逊服务器发出命令。



Echo 智能音箱


大多数现代语音识别系统依赖于人脑上的图案神经网络。软件通过在大量数据中发现模式来学习。算法支持 Echo 和其他智能音箱使用概率模型进行有根据的猜测。如果有人问 Alexa 附近是否有希腊相关的场所,算法会猜测用户可能正在寻找餐馆,而不是教堂或社区中心。


但有时 Alexa 会弄错,尤其是在使用新的俚语、地方口音或英语以外的语言时。在法语中,avec sa 意为“和他/她在一起”,但发音可能会让软件误以为有人正在使用 Alexa 唤醒词。这就是为什么亚马逊招募人类助手来填补算法误差的空白。


苹果的 Siri 也有人类助手,他们负责评估数字助理对请求的解释是否与该人所说的相符。根据苹果安全白皮书,他们审查的录音不包括个人身份信息,存储信息只保留六个月并与随机标识符相关联。之后,数据中剥离随机识别信息,但会存储更长时间以改善 Siri 的语音识别。


该公司表示,在谷歌,一些审核人员可以从其助手访问一些音频片段,以帮助训练和改进产品,但信息与个人身份无关,音频也会失真。


亚马逊最近在布加勒斯特在招聘 Alexa 数据服务质量保证经理,该职位描述了人类在其中扮演的角色:“每天她[Alexa]会听到成千上万的人会用不同的语言与她谈论不同的话题,她需要我们的帮助来理解这一切。这是你从未见过的大型数据处理。我们每天都在制作、标记、阅读和分析大量的语音。“


据一位熟悉该计划设计的人士透露,亚马逊的语音数据审查流程始于 Alexa 随机抽取一小部分客户录音,并将音频文件发送给偏远地区的员工和承包商。



Echo Spot


一些 Alexa 审核人员的任务是转录用户的命令,比较录音与 Alexa 的自动转录的结果,或者注释用户和机器之间的互动。这个人的提问是什么?Alexa 提供了有效的回复吗?


其他人会记下智能音箱听到的一切,包括背景对话,即使是小孩说的话也不放过。有时智能音箱会听到用户讨论私人信息,如姓名或银行详细信息;在这种情况下,他们应该勾选一个表示“关键数据”的对话框。然后接着听下一个音频文件。


根据亚马逊网站,除非 Echo 检测到唤醒字或按下按钮激活,否则不会存储音频。但有时 Alexa 似乎没有任何提示就开始录音,音频文件开头可能会是电视的刺耳声音或难以理解的噪音。无论是否是误激活,审核人员都需要对其进行转录。其中一位人士表示,每天,审核人员都会录制多达 100 条 Alexa 没有收到任何唤醒命令或因意外触发的录音。


据两位审核人员称,在世界各地的家庭中,Echo 的主人常常会怀疑他们是否被偷听。“你是为国家安全局工作吗?”他们问道。“Alexa,有人在偷听我们讲话吗?”


参考链接:https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio


2019-04-11 11:573016
用户头像

发布了 98 篇内容, 共 64.5 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

ChatGPT的原理与前端领域实践 | 京东云技术团队

京东科技开发者

人工智能 前端 ChatGPT 企业号 5 月 PK 榜

面试官:你能和我说一下 CMS 垃圾回收器吗?

Java你猿哥

Java 算法 CMS 垃圾回收器 垃圾收集器

Java开发分析用什么软件好?

真大的脸盆

Mac JAVA开发 Mac 软件 Java开发分析工具

TLS 加速技术:Intel QuickAssist Technology(QAT)解决方案

vivo互联网技术

TLS 加速 Intel QAT

2023年Java学习步骤及路线(超详细)

Java你猿哥

Java 微服务 Spring Boot JVM java面试

SpringWeb服务构建轻量级Web技术体系:SpringHATEOAS

Java你猿哥

Java spring RESTful Web ssm

单机 T 级流量转发吞吐提升 5 倍,可编程负载均衡网关 1.0 上线

百度Geek说

云计算 负载均衡 企业号 5 月 PK 榜

软件测试 | FTP性能测试脚本开发(1)

测吧(北京)科技有限公司

测试

百万级数据导出优化方案

做梦都在改BUG

LDAP性能测试脚本开发

测吧(北京)科技有限公司

测试

使用 PAI-Blade 优化 Stable Diffusion 推理流程

阿里云大数据AI技术

人工智能 推理 Stable Diffusion 企业号 5 月 PK 榜

上海国家会计学院刘梅玲:事项法会计可以有力地促进业财融合

用友BIP

业财融合 事项法会计

DDD在前端应用中的一些思考

阿里技术

前端 DDD

Kafka生产者你不得不知的那些事儿

做梦都在改BUG

深度学习基础入门篇[9.3]:卷积算子:空洞卷积、分组卷积、可分离卷积、可变性卷积等详细讲解以及应用场景和应用实例剖析

汀丶人工智能

人工智能 深度学习 卷积网络 空洞卷积 分组卷积

Java性能优化实践与策略

xfgg

Java 优化 规范

Github星标百万!终于有人将Spring技术精髓收录成册

做梦都在改BUG

Java spring 框架

Serverless冷扩机器在压测中被击穿问题 | 京东云技术团队

京东科技开发者

Serverless GC 击穿 企业号 5 月 PK 榜 Serverless扩容

深度学习基础入门篇[10]:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}

汀丶人工智能

人工智能 深度学习 nlp 词向量 序列模型

AIGC产业研究报告2023——分子发现与电路设计篇

易观分析

产业 AIGC

JavaScript作用域深度剖析:动态作用域

Immerse

文档图像智能分析与处理:CCIG技术论坛的思考与展望

海拥(haiyong.site)

大模型 文档图像智能处理 OCR技术

人工智能将如何改变敏捷项目管理?

敏捷开发

人工智能 项目管理 AI 敏捷开发 Scrum Master

绕不过的并发编程——synchronized原理

Java你猿哥

Java 并发编程 ssm synchronized

京东购物车如何提升30%性能 | 京东云技术团队

京东科技开发者

性能优化 RPC 企业号 5 月 PK 榜 京东购物车 异步改造

真香!阿里最新产出分布式进阶实战手册,涵盖分布式架构所有操作

Java你猿哥

架构 分布式 微服务 Spring Cloud Spring Boot

开源模式新探索!卡奥斯工业互联网开源开放社区再升级

Openlab_cosmoplat

开源 工业互联网 天工开物

记一次redis主从切换导致的数据丢失与陷入只读状态故障

Java你猿哥

redis sentinel ssm 高可用架构

救命稻草!阿里P8耗时5月打造的架构师速成手册,千金难求

Java你猿哥

程序员 ssm 软件架构 架构设计 架构师

逆流而上!整合阿里高频考点2023Java岗面试突击指南手册首次亮相

Java你猿哥

Java MySQL redis ssm java面试

软件测试 | FTP性能测试脚本开发(2)

测吧(北京)科技有限公司

测试

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播_AI&大模型_Matt Day_InfoQ精选文章