立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

不快乐的劳动力,决定了 AI 的未来

  • 2022-02-23
  • 本文字数:3148 字

    阅读完需:约 10 分钟

不快乐的劳动力,决定了AI的未来

本文最初发表于 unite.ai,经原作者 Martin Anderson 授权,InfoQ 中文站翻译并分享。

 

两份最新的论文指出:当前的趋势是,那些工资低廉、经常被剥夺权利的、来自全球的随机零工,为机器学习系统创造基准真相(Ground Truth)。这可能对人工智能产生重大的下游影响。这无疑是个糟糕的消息。而更糟糕的是,补救措施要么昂贵,要么耗时,要么既昂贵又耗时。

 

这两篇论文中,第一篇论文是由谷歌的五名研究人员撰写的,题目是《谁的基准真相?数据集标注背后的个体和集体的身份说明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约雪城大学(Syracuse University)的两位研究人员撰写的,题目是《数据标注者之间分歧的起源和价值:仇恨言论标注中个体差异的案例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。

 

谷歌的论文指出,众包工人自身的偏见可能会被植入到人工智能系统中,而人工智能系统的基准真相就是基于这些人的反应。这些众包工人经常在一系列限制条件下工作,这可能会影响他们对实验任务的反应方式。

 

例如,亚马逊 Mechanical Turk 的现行政策就允许请求者(那些分发任务的人)拒绝标注者的工作而无须承担责任:

 

绝大多数的众包工人(94%)都有过被拒绝的工作经历,或者没有得到报酬。但是,不管他们是接受还是拒绝,请求者都对他们收到的数据保留了全部权利。Roberts(2016) 将这种制度描述为“鼓励盗窃工资”。

 

拒绝工作和拖欠报酬是痛苦的,因为拒绝往往是由于不清晰的指示和缺乏有效的反馈渠道而导致的。许多众包工人报告说,沟通不畅会给他们的工作带来负面影响。

 

论文指出,利用外包服务来开发数据集的研究人员,应当思考众包平台是怎样对待其工人的。据悉,美国的众包工人被归为“独立承包商”,他们的工作既不受监管,也不受《公平劳动标准法案》(Fair Labor Standards Act)所规定的最低工资的保护。

标注者背景很重要

 

这篇论文还提出了一个批评,即在没有考虑到标注者背景的情况下,雇用临时的、来自全球的劳动力来进行标注。

 

如果预算允许,使用 AMT 和类似的众包平台的研究人员经常把同一个任务分配给四个标注者,并且在结果上遵循“多数原则”。

 

论文认为,标注者的背景显然未被重视。比如,当三名 18~57 岁的男性和一名 29 岁的女性被随机地分配了一项关于性别歧视的任务,那么男性的判决将获得胜利,除非研究人员注意到这些标注者的背景信息,这种情况相对罕见。

 

类似地,一个有关芝加哥帮派行为的问题,分配给一名 36 岁的美国农妇、一名 42 岁的芝加哥男性居民以及两名分别来自班加罗尔和丹麦的标注者,在标准的外包配置中,最容易受到这个问题影响的人(芝加哥男性)在结果中只占有四分之一的份额。

 

研究人员表示:

 

“唯一真相”这一概念在众包回应中是个神话。标注者之间的分歧往往被认为是消极的,但事实上却能为人们提供有价值的信息。其次,由于许多众包标注者在社会人口统计学方面存在一定的偏差,这就会影响到哪些人是数据集的代表,哪些人将面对众包的挑战。

 

解释标注者人口统计学上的偏差是数据收集和确保负责任的下游应用的关键。总之,认同和顾及众包工人的社会和文化背景,不管从数据质量或社会影响上来说,都是很有意义的。

不存在对热点问题的“中立”观点

 

即使四名标注者的观点在人口统计学上或其他一些指标上都不存在偏差,但谷歌的这篇论文仍然担心研究人员没有将标注者的人生阅历或哲学取向纳入考量:

 

虽然有些任务倾向于提出有正确答案的客观问题(例如 “is there a human face in an image?”),但很多时候,数据集的目的是捕捉对相对主观的任务的判断,而非一个普遍正确的答案(例如 “is this piece of text offensive?”)。关键在于,它是否取决于标注者的主观判断。

 

针对仇恨言论标签问题的具体范围,雪城大学的论文提出了更为直截了当的问题,比如“Is there a cat in this photograph?”,与询问众包工人某个短语是否“有毒”有显著不同:

 

由于社会现实的纷繁复杂,人们对于“有毒”的理解也各不相同。他们以自己的认识为基础,对有害的内容进行标注。

 

雪城大学的研究人员发现,个性和年龄对仇恨言论的维度标签有 “实质性影响”,他们得出结论:这些发现表明,在具有不同背景和个性的仇恨言论的标注者之间,要想获得标注一致性,这种努力可能永远不会取得完全成功

法官可能也会有偏见

 

雪城大学的论文指出,这种缺乏客观性的情况也有可能向上迭代。该论文认为,人为干预(或自动决策,也是由人决定)来决定共识投票的“赢家”,也应该受到审查。

 

作者将这一过程比作论坛审核,并指出:

 

社区版主可以通过对帖子进行加精或隐藏,以及对用户进行表彰、羞辱或禁止,来决定帖子和用户在社区中的命运。版主的决定会对向社区成员和受众传达的内容产生影响,并将会对社区的讨论体验产生影响。

 

假设一个人类版主是一个社区成员,与其他社区成员具有人口统计学上的同质性,那么他们用来评估内容的心理图式似乎有可能与其他社区成员的心理图式相匹配。

 

这为雪城大学的研究人员为何对仇恨言论标注的未来,得出如此令人沮丧的结论提供了一些线索。其含义是,针对不同的众包意见的政策和判决呼吁,不能只按照“可接受的”原则随意应用,而这些原则在任何地方都无法被遵循(或者不能简化为可适用的模式,即使它们确实存在)。

 

做决定的人(众包工人)是有偏见的,如果他们没有偏见,对于这样的任务来说就毫无意义,因为任务就是要做出价值判断;而那些对众包结果中的争议做出判决的人,在指定有争议的政策时,也是在做出价值判断。

 

仅仅一个仇恨言论检测框架就可能有数百种政策,如果不把所有的政策都纳入最高法院,那么“权威性”的共识是从哪里来的呢?

 

谷歌的研究人员建议,“标注者之间的分歧可能蕴含着关于任务的宝贵细微差别”。该论文建议在数据集中使用元数据,以反映和说明争议。

 

但是,我们很难看到,这个特定背景下的数据层是怎样产生类似的度量标准,符合已建立的标准测试需求,或者支持任何明显的结论,除非是在这种不现实的情况:在后续工作中使用同一组研究人员。

管理标注者库

 

所有这一切都是假设,一个研究项目甚至会有用于多个标注的预算,这些标注将导致共识投票。在许多情况下,研究人员试图通过指定众包工人应具备的特征,如地理位置、性别或者其他文化因素,以多元化换取特殊性,从而更廉价地“管理”外包标注者库。

 

谷歌的论文认为,应对这些挑战的方法可以是与标注者建立一个更大的沟通框架。

 

对标注者的如此仔细的考虑,自然会成为超大规模标注外包的障碍。最终导致要么出现更有限和低容量的数据集,要么标注者进行“仓促”评估,获得关于他们的有限细节,并且在信息不足的情况下,将他们定性为“适合任务”。这是在标注者诚实的前提下。

 

鉴于现有的劳动力报酬过低,对现有任务的竞争很激烈,并且职业前景渺茫,因此,标注员的动机就是要迅速提供“正确”的答案,并进行下一项小型任务。

 

雪城大学的论文认为,如果“正确答案”是比“有猫/无猫”更复杂的东西,众包工人也许会从问题的内容和上下文推导出“可接受的”答案。

 

替代性概念的扩散以及简单化的标注方法的广泛使用,都可以说是对网络仇恨言论研究进展的阻碍。例如,Ross 等人就发现,将 Twitter 中关于仇恨行为的定义告诉标注者,会使他们在一定程度上将自己的观点与定义相一致。这样的调整会使标注员之间标注的可信度非常低。

 

作者介绍:

 

Martin Anderson,记者、编辑,主要研究机器学习、人工智能和大数据。

 

原文链接:

 

https://www.unite.ai/the-invisible-often-unhappy-workforce-thats-deciding-the-future-of-ai/

2022-02-23 18:003028

评论 1 条评论

发布
用户头像
这论文本身对于"工资低廉、经常被剥夺权利的、来自全球的随机零工"就是一种偏见,如何处理偏见正是人工智能要达到的目的之一,也是人工智能是否真的智能的评判标准之一.
2022-02-28 10:54
回复
没有更多了
发现更多内容

谈谈对微软Dapr的理解

行云创新

微软 服务网格 dapr

网易云信发布两大元宇宙解决方案,打响进军元宇宙第一枪

网易云信

人工智能 音视频 元宇宙

飞桨双十二礼包,上海“拆箱”啦!

百度大脑

人工智能

大厂高频面试题Spring Bean生命周期最详解

Tom弹架构

Java spring 源码

如何搭建批流一体大数据分析架构?

Kyligence

JavaScript 中的 .forEach() 和 for...of

devpoint

JavaScript foreach for...of 12月日更

南瓜电影 7 天内全面 Serverless 化实践

Serverless Devs

阿里云 ECS 南瓜电影 SAE

中科柏诚持续推进数字网络技术,蓄力元宇宙布局

联营汇聚

Go语言学习查缺补漏ing Day5

恒生LIGHT云社区

golang 编程语言

常见杀毒软件及其引擎的特点

喀拉峻

网络安全 病毒扫描

npm进阶(一) 更换成淘宝镜像源以及 cnpm

No Silver Bullet

npm 12月日更

netty系列之:性能为王!创建多路复用http2服务器

程序那些事

Netty 程序那些事 http2 12月日更

尚硅谷Maxwell视频教程发布!

@零度

大数据 Maxwell

Kafka之为什么需要消息队列

编程江湖

大数据 kafka

Aeron 是如何实现的?—— Ipc Subscription

BUG侦探

共享内存 Aeron Ipc Subscription

老电影和图片变清晰的秘密!分辨率提升400%的AI算法

百度大脑

人工智能

Rust 元宇宙 14 —— 创建角色和同步

Miracle

rust 元宇宙

SpringBoot中如何优雅的使用多线程

编程江湖

JAVA开发 springboot

元宇宙浪潮之下,数字身份至关重要

CECBC

十年期货股票行情数据轻松处理——TDengine在同心源基金的应用

TDengine

数据库 tdengine 时序数据库

【IT运维】公司内网服务器可以远程桌面连接吗?怎么连接?

行云管家

云计算 运维 IT运维 远程运维

Kyligence + 亚马逊云科技丨实现云上的精细化运营和数字化指挥

Kyligence

恒源云(GPUSHARE)_【功能更新】实例日志上线,操作一目了然

恒源云

深度学习 算力加速

腾讯音乐iOS开发四次面试记录

iOSer

ios 腾讯 面试题 iOS面试 腾讯音乐

跨越可观测性鸿沟|高手们都在用的“火焰图”是什么

尔达Erda

程序员 微服务 云原生 可观测性 链路追踪

Python代码阅读(第68篇):指定值出现次数

Felix

Python 编程 列表 阅读代码 Python初学者

7.《重学JAVA》--运算符

杨鹏Geek

Java 25 周年 28天写作 12月日更

List 去重的 6 种方法

编程江湖

List java 编程

es单机安装及配置其系统服务

elasticsearch

主机入侵检测策略之基线检测

网络安全学海

网络安全 信息安全 渗透测试 安全漏洞 暴力猜解

【等保小知识】信息安全等级保护四级系统有哪些?

行云管家

网络安全 等级保护

不快乐的劳动力,决定了AI的未来_AI&大模型_Martin Anderson_InfoQ精选文章