速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

工资暴跌,还要训练 AI 替代自己?数据标注员正在被大厂抛弃

  • 2024-01-15
    北京
  • 本文字数:2520 字

    阅读完需:约 8 分钟

大小:1.18M时长:06:54
工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃

AI 数据标注员正逐步向人力成本更低的城市渗透,但即便如此,似乎也难逃被 AI 替代的命运。

苹果将关闭 121 人的 AI 标注团队

 

据彭博社 1 月 14 日报道,据知情人士透露,苹果公司将关闭圣地亚哥一个与人工智能业务相关的 121 人团队,这将导致许多员工面临被解雇的风险。

 

据悉,该团队在中国、印度、爱尔兰和西班牙设有办事处,负责通过听取对语音服务 Siri 发出的询问,并确定 Siri 是否准确地听到和处理问题来对其进行改进。位于圣地亚哥的团队成员专注改善用户以希伯来语、英语、西班牙语、葡萄牙语、阿拉伯语、法语等使用 Siri 的情况。

 

知情人士称,这个名为“数据操作标注”的团队上周三被告知,他们将搬迁至奥斯汀,与在得克萨斯州的同一团队合并。对于愿意在 6 月底前搬到奥斯汀的团队成员,可以保留自己的工作职位,苹果也将提供 7000 美元搬家补助。至于选择从苹果离职的人,则可获得至少四周遣散费以及六个月健康保险,原本工作职位会被取消。

 

苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。她补充说,“目前在职的每个人都有机会到奥斯汀继续在苹果的工作。”

 

但对圣地亚哥的团队成员而言,苹果这一决定令他们讶异。知情人士称,该团队一直在苹果租用的办公室工作,原本将在一月底搬到苹果总部,现在被迫搬到奥斯汀,大多数受影响的员工并不愿意搬到这么远的地方。

 

苹果告诉这些员工,必须在二月底之前决定是否前往奥斯汀,如果不愿意这么做,会在 4 月 26 日遭到解雇。虽然苹果称他们可以申请转调其他职位,但部分员工认为他们不具工程背景,内部转岗机会恐怕不多。

AI 数据标注员正逐步向人力成本更低的城市渗透

 

数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。

 

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。

 

在 2019 年以前,苹果公司的“数据操作标注”团队主要由外部承包商组成,后来考虑到隐私安全等问题,苹果解雇了承包商,改由全职员工替代。该团队少数员工已经开始协助苹果采用大型语言模型,这些人正在检查 Siri 潜在问题。

 

有评论认为,苹果公司选择将 AI 数据标注团队搬迁至奥斯汀,或许与当地的人力成本有关。奥斯汀数据注释服务公司 Alegion 客户成功总监丹尼尔·凯林曾表示,“整个数据标注行业竞争非常激烈,每个公司都想在世界其他地方找到更便宜的劳动力。”

 

比如,众包平台 Mechanical Turk 上的 20 万名 AI 数据标注员就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。而在中国,上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。

薪资暴跌,也难逃被 AI 取代?

 

不少 AI 数据标注员表示,在前几年 AI 数据标注薪资还较为可观——至少与现在相比是这样。

 

据 Tech 星球报道,一位从事 AI 数据标注的消息者称,在 2017 年,单价高的时候,拉一个 2D 框就有 1 毛多,“我最高的时候干了 10 多个小时,一天就赚了 600 多元”。不过,这不是最高的,另一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。(注:拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。)但这种热度并没有持续多少,现在标注一个图片的单价越来越低,最低的只有 4 分钱。

 

即便薪资暴跌,AI 数据标注员还是难逃被 AI 取代的命运——毕竟在 AI 面前,无论成本还是效率,人类可以说是毫无优势。

 

以 ChatGPT 为例,苏黎世大学研究发现,成本上,ChatGPT 平均每个标注成本低于 0.003 美元,比众包平台便宜 20 倍;效率上,在相关性、立场、主题等任务中,ChatGPT 也是以 4:1 的优势“碾压”人类。

 

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现: GPT-4 在数据集标注表现上优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。

 

有评论认为,AI 数据标注员需要做好被 AI 取代的准备。目前在自动驾驶领域,已经有车企开始采用 AI 进行标注。

 

理想汽车董事长兼 CEO 李想曾在 2023 年 4 月份举行的一场论坛上表示,当理想汽车使用软件 2.0 的大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情,基本上 3 个小时就能完成,效率是人的 1000 倍。

 

特斯拉也一直在积极推进自动标注的进展,从 2018 至今,特斯拉的标注经历了 4 个阶段:

 

  • 第 1 阶段(2018):只有纯人工的 2 维的图像标注,效率非常低;

  • 第 2 阶段(2019):开始有 3D label,但是是单趟的人工的;

  • 第 3 阶段(2020):采用 BEV 空间进行标注,重投影的精度明显降低;

  • 第 4 阶段(2021):采用多趟重建去进行标注,精度、效率、拓扑关系都达到了极高的水准。

 

2022 年 6 月,特斯拉裁撤了 200 名为特斯拉标注视频以改进辅助系统的美国员工。目前,特斯拉的自动标注能力大幅改善,标注 10000 个不到 60 秒的视频,大模型只需要运行一周即可,而同样的工作量人工标注却需要几个月的时间。

 

但也有评论认为,当前 AI 完全取代人工标注还存在一定局限性。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 表示,“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”


参考链接:

https://www.bloomberg.com/news/articles/2024-01-14/apple-to-shutter-121-person-san-diego-ai-team-in-reorganization

https://www.infoq.cn/article/2hkNxGO1L0RamfzS6w0z?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

2024-01-15 14:385686

评论

发布
暂无评论
发现更多内容

最基础的3道java面试题,你真的答得上来吗

田维常

面试

GraphX 在图数据库 Nebula Graph 的图计算实践

NebulaGraph

图数据库 图数据库实战

滴滴 Flink-1.10 升级之路

Apache Flink

flink

List去除重复数据的五种方式

xcbeyond

Java ArrayList 28天写作

这只猫在云端定居了?边缘计算在天猫精灵云应用上的落地实践

阿里云Edge Plus

CDN IoT 边缘计算 云桌面

软件架构模式之事件驱动架构

架构精进之路

软件架构 七日更 28天写作 2月春节不断更

单例模式原来是这么简单?!

后台技术汇

28天写作 2月春节不断更

2020-21《全球质量报告》解读

BY林子

质量保障 质量赋能 敏捷测试

勿让 Docker Volume 引发 Terminating Pod

黄久远

Docker 云计算 Kubernetes 容器 云原生

Elasticsearch 从 0 到千万级数据查询实践

📿

Java spring elasticsearch Spring Cloud spring data

LeetCode题解:69. x 的平方根,二分查找,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

字节面试太刁钻了:不加机器,怎么提升系统并发100倍

Java架构师迁哥

面试杀手锏!2021最新Android常用开源库总结,Android校招面试指南

欢喜学安卓

android 程序员 面试 移动开发

CodeDay#5 全程回顾——一场关于动态化开发实践的技术探讨

蚂蚁集团移动开发平台 mPaaS

mPaaS Codeday 技术沙龙

【内含福利】流行在CDN圈内的黑话有哪些?

阿里云Edge Plus

CDN

DIY一款能随周围环境变化的智能灯泡,求婚必备!

IoT云工坊

人工智能 物联网 人脸识别 sdk IoT App

领域的边界,一个小讨论

李小腾

领域驱动设计 DDD

面试看这个就够了!6年菜鸟开发面试字节跳动安卓研发岗,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

疫情成本遭不住?一招降本85%,架构特性全部公开!

数据君

运动健身市场越来越大,你的客户却越来越少?

IoT云工坊

人工智能 App 物联网 健身房 智能健身房

k8s-client-go源码剖析(三)

远鹏

Kubernetes Kubernetes源码 Go 语言

new的过程是怎样的?看完这一篇就懂了

codevald

Java JVM原理 面向对象编程 类对象

2020已过,2021来临,iOS 开发市场如何?一切都是未知!【未来可期】

ios 程序员

疫情又反扑,除了不乱跑,我们还能干点啥?

数据君

云话题 | 第3期 你女朋友在买买买时,程序员小哥在干嘛?

阿里云Edge Plus

CDN 直播 直播带货

Linux-Lab 入门:体验

贾献华

Docker Linux 嵌入式 内核 Lab

MySQL字段类型最全解析

Simon

MySQL 数据库数据类型

第三周

ALone

点赞系统软件开发

luluhulian

如何避免让微服务测试成为研发团队最大的瓶颈?

阿里巴巴中间件

话题讨论 | 你现在还会推荐亲朋做程序员吗?

石云升

话题讨论 2月春节不断更

工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃_AI&大模型_凌敏_InfoQ精选文章