HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

在亚马逊 Alexa 内部聊天室,你的录音可能正在被分享、传播

  • 2019-04-11
  • 本文字数:2887 字

    阅读完需:约 9 分钟

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播

亚马逊智能助手传出窃听事件已不是一两次,这次,彭博社再次爆料亚马逊智能音箱 Alexa 的工作人员正在监听用户和智能音箱之间的对话,并深入 Alexa 罗马尼亚办事处,从内部审核人员口中得到更多不为人知的秘密。


亚马逊公司(Amazon.com Inc.)在全球拥有数千名员工,帮助改进 Alexa 数字助理,打造 Echo 音箱系列。这个团队会监听 Echo 在主人家中和办公室中的录音。录音被转录、注释,然后反馈到软件中,以消除 Alexa 对人类语音理解的误差,并帮助它更好地响应命令。


据 7 名参与该计划的人员描述,Alexa 语音审核流程突出了训练软件算法中经常被忽视的人类角色的功能。在营销材料中亚马逊表示,Alexa“活在云端,并且越来越聪明。”但是,就像许多为了从经验中学习而构建的软件工具一样,它们需要人类的教学。


据知情人士称,该团队由承包商和全职亚马逊员工组成,他们在从波士顿到哥斯达黎加、印度和罗马尼亚的第一线工作。他们签署了保密协议,禁止公开谈论该计划。亚马逊位于罗马尼亚首都布加勒斯特正在崛起的 Pipera 区的办公室,占据了 Globalworth 大楼最顶层的三层楼,据这里办事处的两名工作人员说,他们每天工作 9 小时,每位审核人员每次轮班解析多达 1,000 个音频片段。现代化的设施在周围破败的建筑物中十分显眼,但并没有宣示亚马逊存在的标志。


这项工程大多是平凡的工作组成。波士顿的一名工作人员表示,他负责为特定的词语(如“泰勒斯威夫特”)挖掘累积的语音数据,并对其进行注释,以保证搜索是指这位音乐艺术家。有时,他们会听到 Echo 主人更愿意保密的信息:一个女人在洗澡时唱着严重跑调的歌,或者一个孩子尖叫着寻求帮助。在需要帮助解析混乱的单词,或听到有趣的录音时,团队会在内部聊天室共享文件。



亚马逊在布加勒斯特的办事处 来源:Bloomberg


有时他们会听到令人不安或可能是犯罪的录音。其中两名工人表示他们听到了可能是性侵犯的行为。当这样的事情发生时,他们可能会在内部聊天室进行分享以缓解压力。亚马逊表示,他们设置了工作人员听到令人痛苦的事情时的处理程序,但两名罗马尼亚员工表示,在要求对此类事件提供指导后,他们被告知亚马逊不应该进行干预。


“我们认真对待客户个人信息的安全和隐私,”亚马逊发言人在一封电子邮件声明中表示。“我们只会注释一小部分 Alexa 录音,以便改善客户体验。例如,这些信息有助于我们训练语音识别和自然语言理解系统,让 Alexa 可以更好地了解您的请求,并确保服务适合每个人。”


“我们有严格的技术和操作保障措施,对滥用我们的系统采取零容忍政策。对于可以识别用户身份或帐户信息的工作流程,员工无法直接访问。所有信息都具有高度机密性,我们使用多因素身份验证、服务加密和审核控制环境来限制访问。“


亚马逊在其营销和隐私政策材料中没有明确表示员工正在监听 Alexa 收集的一些对话的录音。“我们使用您对 Alexa 的请求来训练我们的语音识别和自然语言理解系统,”该公司在一系列常见问题中回应。


在 Alexa 的隐私设置中,该公司为用户提供了禁止使用其录音来开发新功能的选项。彭博社的屏幕截图显示,发送给 Alexa 审核员的记录不包括用户的全名和地址,但有帐号、用户的名字和设备的序列号信息。


Intercept 今年早些时候报道称,亚马逊收购的智能家居公司 Ring 的员工可以手动识别门铃摄像头拍摄视频中的车辆和人,以更好地训练软件自主完成任务。


密歇根大学教授弗洛里安·绍布(Florian Schaub)曾研究过与智能音箱有关的隐私问题,他说:“你可能不知道,当你在家里和亲人谈话时,有另一个人正在监听。我认为我们已经习惯于[假设]这些机器正在进行某种神奇的机器学习。但事实是这仍然涉及手动处理。“


“这是否属于隐私问题取决于亚马逊和其他公司对其手动注释信息类型的谨慎程度,以及他们如何向某人提供这些信息,”他补充道。


当 Echo 于 2014 年首次亮相时,亚马逊的圆柱形智能音箱迅速让家庭智能语音软件流行起来。不久之后,Alphabet 公司推出 Google Home,其次是苹果的 HomePod。各种公司也在中国销售设备。据研究人员 Canalys 称,去年全球消费者购买了 7800 万智能音箱。还有数百万人使用语音软件与智能手机上的数字助理进行互动。


Alexa 软件的设计会让它持续记录音频片段,聆听唤醒词。默认情况下,唤醒词是“Alexa”,但人们可以将其更改为“Echo”或“computer”当检测到唤醒词时,Echo 顶部的灯环变为蓝色,表示设备正在录制并向亚马逊服务器发出命令。



Echo 智能音箱


大多数现代语音识别系统依赖于人脑上的图案神经网络。软件通过在大量数据中发现模式来学习。算法支持 Echo 和其他智能音箱使用概率模型进行有根据的猜测。如果有人问 Alexa 附近是否有希腊相关的场所,算法会猜测用户可能正在寻找餐馆,而不是教堂或社区中心。


但有时 Alexa 会弄错,尤其是在使用新的俚语、地方口音或英语以外的语言时。在法语中,avec sa 意为“和他/她在一起”,但发音可能会让软件误以为有人正在使用 Alexa 唤醒词。这就是为什么亚马逊招募人类助手来填补算法误差的空白。


苹果的 Siri 也有人类助手,他们负责评估数字助理对请求的解释是否与该人所说的相符。根据苹果安全白皮书,他们审查的录音不包括个人身份信息,存储信息只保留六个月并与随机标识符相关联。之后,数据中剥离随机识别信息,但会存储更长时间以改善 Siri 的语音识别。


该公司表示,在谷歌,一些审核人员可以从其助手访问一些音频片段,以帮助训练和改进产品,但信息与个人身份无关,音频也会失真。


亚马逊最近在布加勒斯特在招聘 Alexa 数据服务质量保证经理,该职位描述了人类在其中扮演的角色:“每天她[Alexa]会听到成千上万的人会用不同的语言与她谈论不同的话题,她需要我们的帮助来理解这一切。这是你从未见过的大型数据处理。我们每天都在制作、标记、阅读和分析大量的语音。“


据一位熟悉该计划设计的人士透露,亚马逊的语音数据审查流程始于 Alexa 随机抽取一小部分客户录音,并将音频文件发送给偏远地区的员工和承包商。



Echo Spot


一些 Alexa 审核人员的任务是转录用户的命令,比较录音与 Alexa 的自动转录的结果,或者注释用户和机器之间的互动。这个人的提问是什么?Alexa 提供了有效的回复吗?


其他人会记下智能音箱听到的一切,包括背景对话,即使是小孩说的话也不放过。有时智能音箱会听到用户讨论私人信息,如姓名或银行详细信息;在这种情况下,他们应该勾选一个表示“关键数据”的对话框。然后接着听下一个音频文件。


根据亚马逊网站,除非 Echo 检测到唤醒字或按下按钮激活,否则不会存储音频。但有时 Alexa 似乎没有任何提示就开始录音,音频文件开头可能会是电视的刺耳声音或难以理解的噪音。无论是否是误激活,审核人员都需要对其进行转录。其中一位人士表示,每天,审核人员都会录制多达 100 条 Alexa 没有收到任何唤醒命令或因意外触发的录音。


据两位审核人员称,在世界各地的家庭中,Echo 的主人常常会怀疑他们是否被偷听。“你是为国家安全局工作吗?”他们问道。“Alexa,有人在偷听我们讲话吗?”


参考链接:https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio


2019-04-11 11:572965
用户头像

发布了 98 篇内容, 共 64.2 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

Wallys/ AR9531/WiFi Card/ MMCX

wallys-wifi6

AR9531 30dBm high power

LinkedList 源码分析-新增

zarmnosaj

5月月更

区块链Web3招聘:海量开发产品岗位等你来 Pick

TinTinLand

区块链

fastposter v2.8.1 发布 电商海报生成器

物有本末

Python Pillow fastposter fast-poster

超潜力公链DFINITY——DeFi 开发者最佳进入时期

TinTinLand

区块链

阿里云张新涛:异构计算为数字经济提供澎湃动力

阿里云弹性计算

XR 元宇宙 视觉计算

DPU芯片企业中科驭数加入龙蜥社区,构建异构算力生态

OpenAnolis小助手

芯片 生态 龙蜥社区 CLA 中科驭数

当我们谈论服务质量的时候,我们在谈什么?

VoltDB

5G QoS 电信运营商

【达人专栏】还不会用Apache Dolphinscheduler吗,大佬用时一个月写出的最全入门教学【二】

白鲸开源

Apache 大数据 开源 workflow dophinscheduler

设计模式关系图(全网首发)之结构和创建模式

设计模式

《方博碳讨室》:四问欧洲绿色能源转型

Geek_2d6073

“晕乎乎的概念”:阿里云函数计算的“应用”又是个啥

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

【LeetCode】爬楼梯的最少成本Java题解

Albert

算法 LeetCode 5月月更

直播预告丨OpenHarmony标准系统多媒体子系统之视频解读

Anna

OpenHarmony

云数赋能+数字办公 助力政企数字化

mark:vscode 无法远程访问连接

webrtc developer

vscode

大画 Spark :: 网络(7)-Spark网络中的“四次握手”Executor注册到Driver过程中的TransportClient与细节过程

dclar

大数据 hadoop spark 架构设计 源代码

性能提升 57% ,SMC-R 透明加速 TCP 实战解析 | 龙蜥技术

OpenAnolis小助手

互联网 网络协议 高性能 TCP/IP 龙蜥技术

Neo 生态技术月报 | 助力开发者玩转智能合约

TinTinLand

区块链

时间堆原理详解及C++11的实现

C++后台开发

后端开发 Linux服务器开发 C++11 C++后台开发 时间堆

Liga 讨论: ToB产品可不可以免费?

LigaAI

SaaS

墨天轮访谈 | 京东云曲艺伟:京东零售核心业务背后的数据库实践

墨天轮

数据库 京东云 国产数据库

【直播回顾】如何成为一名优秀的OpenHamrony贡献者?

OpenHarmony开发者

OpenHarmony 贡献代码

AIRIOT物联网低代码平台如何配置欧姆龙omron驱动?

AIRIOT

低代码 物联网 驱动配置

中国电子云数据库 Mesh 项目 DBPack 的实践

峨嵋闲散人

分布式事务 分库分表 读写分离

直播回顾 | 后疫情时代,食品行业破局秘籍get一下!

旺链科技

区块链 溯源 产业区块链

DeFi挖矿智能合约Dapp系统开发搭建

薇電13242772558

智能合约

银行需明确低代码与无代码开发平台差异,以在技术上降低试错成本

易观分析

银行

类似 Teambition 的9大最佳项目管理软件

爱吃小舅的鱼

Hoo网格策略 | 一「网」在手 告别「追涨杀跌」

区块链前沿News

虎符 Hoo 网格交易

对话上市公司数字化转型:激活数据要素 倍增数字价值

WorkPlus

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播_AI&大模型_Matt Day_InfoQ精选文章