写点什么

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

  • 2023-03-03
    北京
  • 本文字数:1906 字

    阅读完需:约 6 分钟

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

 

近日,TIME 发布了一篇独家报道,发现ChatGPT在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

 

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

外包数据标注工人时薪不到 2 美元

 

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75%的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

 

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

 

作为OpenAI旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

 

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

 

OpenAI证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

“做这份工作是一种精神创伤”

 

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

 

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金

 

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

 

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

 

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

 

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

 

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

 

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与Facebook签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

 

原文链接:

 

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

 

2023-03-03 16:174575
用户头像
李冬梅 加V:busulishang4668

发布了 1054 篇内容, 共 667.6 次阅读, 收获喜欢 1214 次。

关注

评论 1 条评论

发布
用户头像
苹果市值一万亿美元,你在富士康打螺丝,组装了几台iPhone,是不是得给你分一个亿。
2023-03-06 15:29 · 陕西
回复
没有更多了
发现更多内容

实录分享 | 央企大数据平台架构发展趋势与应用场景的介绍

Alluxio

人工智能 大数据 构架 Alluxio 央企

RetsCloud AppLink适用的场景有哪些?

RestCloud

零代码 自动化集成 适用场景

海外云手机助力企业拓展海外市场

Ogcloud

云手机 海外云手机

永不停止,永远在路上!MIAOYUN 2023年度回顾

MIAOYUN

2023年度回顾 2023年终总结 年度关键词 年度成绩单

共话 AI for Science | 中国自然资源航空物探遥感中心于峻川:“AI+遥感”技术地学应用实践与展望

ModelWhale

人工智能 机器学习 深度学习 AI4S

京东JD商品详情API:实时数据获取的实现

Noah

流式湖仓增强,Hologres + Flink 构建企业级实时数仓

Apache Flink

Mixtral 8X7B MoE模型基于PAI的微调部署实践

阿里云大数据AI技术

Atlassian版本选择趋势是上云还是本地部署?全面分析两个版本的特性

龙智—DevSecOps解决方案

DevSecOps Atlassian

腾讯云ES RAG最佳实践:百行代码轻松实现帮助文档的智能问答

腾讯云大数据

ES

虚幻引擎nDisplay教程:如何同步nDisplay节点与Switchboard + Helix Core

龙智—DevSecOps解决方案

电商新趋势:解析养号的必要性及海外云手机运用攻略

Ogcloud

云手机 海外云手机 跨境电商云手机

Jenkins入门知识:什么是Jenkins?以及它的历史与发展

龙智—DevSecOps解决方案

华为产品创新经验,帮你成为更好的产品创新者

华为云PaaS服务小智

学习 华为云

解锁 AI 潜力 | 使用 GreptimeAI 深入观测 OpenAI 行为和用量

Greptime 格睿科技

数据库 LLM LLMOps

ByConity 社区回顾|ByConity 和开发者们一起展望未来,携手共进!

字节跳动开源

大数据 开源 字节跳动 社区 回顾

软件测试/测试开发/全日制/测试管理丨App 自动化测试的价值与体系

测试人

软件测试

告别信息差!奇点云SimbaMetric打破协作壁垒,为指标管理提效

奇点云

奇点云 数据指标体系 指标工厂

云桌面如何推动建筑行业数字化转型?

青椒云云电脑

云桌面 云桌面厂家 云桌面解决方案

提升源代码安全性的C#和Java深度混淆工具——IpaGuard

海外直播专线:打通TikTok直播的畅通通道

Ogcloud

海外直播专线 Tik Tok直播 Tik Tok直播网络

打通商城与ERP系统,实现物料自动同步

聚道云软件连接器

案例分享

如何优雅的对ILogger进行扩展并实现日志分类及追踪

多态丶

netcore 扩展 logger dotnetcore 结构化日志

程序员一定要知道的限流大法:令牌桶算法

不在线第一只蜗牛

程序员 高并发 限流

2023年Gartner® DevOps平台魔力象限发布,Atlassian被评为“领导者”

龙智—DevSecOps解决方案

DevOps

京东商品详情API实现实时数据获取的Java代码示例

Noah

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建

ModelWhale

人工智能 机器学习 深度学习 预测模型 AI4S

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词_AI&大模型_Jaime Hampton_InfoQ精选文章