写点什么

工资暴跌,还要训练 AI 替代自己?数据标注员正在被大厂抛弃

  • 2024-01-15
    北京
  • 本文字数:2520 字

    阅读完需:约 8 分钟

大小:1.18M时长:06:54
工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃

AI 数据标注员正逐步向人力成本更低的城市渗透,但即便如此,似乎也难逃被 AI 替代的命运。

苹果将关闭 121 人的 AI 标注团队

 

据彭博社 1 月 14 日报道,据知情人士透露,苹果公司将关闭圣地亚哥一个与人工智能业务相关的 121 人团队,这将导致许多员工面临被解雇的风险。

 

据悉,该团队在中国、印度、爱尔兰和西班牙设有办事处,负责通过听取对语音服务 Siri 发出的询问,并确定 Siri 是否准确地听到和处理问题来对其进行改进。位于圣地亚哥的团队成员专注改善用户以希伯来语、英语、西班牙语、葡萄牙语、阿拉伯语、法语等使用 Siri 的情况。

 

知情人士称,这个名为“数据操作标注”的团队上周三被告知,他们将搬迁至奥斯汀,与在得克萨斯州的同一团队合并。对于愿意在 6 月底前搬到奥斯汀的团队成员,可以保留自己的工作职位,苹果也将提供 7000 美元搬家补助。至于选择从苹果离职的人,则可获得至少四周遣散费以及六个月健康保险,原本工作职位会被取消。

 

苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。她补充说,“目前在职的每个人都有机会到奥斯汀继续在苹果的工作。”

 

但对圣地亚哥的团队成员而言,苹果这一决定令他们讶异。知情人士称,该团队一直在苹果租用的办公室工作,原本将在一月底搬到苹果总部,现在被迫搬到奥斯汀,大多数受影响的员工并不愿意搬到这么远的地方。

 

苹果告诉这些员工,必须在二月底之前决定是否前往奥斯汀,如果不愿意这么做,会在 4 月 26 日遭到解雇。虽然苹果称他们可以申请转调其他职位,但部分员工认为他们不具工程背景,内部转岗机会恐怕不多。

AI 数据标注员正逐步向人力成本更低的城市渗透

 

数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。

 

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。

 

在 2019 年以前,苹果公司的“数据操作标注”团队主要由外部承包商组成,后来考虑到隐私安全等问题,苹果解雇了承包商,改由全职员工替代。该团队少数员工已经开始协助苹果采用大型语言模型,这些人正在检查 Siri 潜在问题。

 

有评论认为,苹果公司选择将 AI 数据标注团队搬迁至奥斯汀,或许与当地的人力成本有关。奥斯汀数据注释服务公司 Alegion 客户成功总监丹尼尔·凯林曾表示,“整个数据标注行业竞争非常激烈,每个公司都想在世界其他地方找到更便宜的劳动力。”

 

比如,众包平台 Mechanical Turk 上的 20 万名 AI 数据标注员就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。而在中国,上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。

薪资暴跌,也难逃被 AI 取代?

 

不少 AI 数据标注员表示,在前几年 AI 数据标注薪资还较为可观——至少与现在相比是这样。

 

据 Tech 星球报道,一位从事 AI 数据标注的消息者称,在 2017 年,单价高的时候,拉一个 2D 框就有 1 毛多,“我最高的时候干了 10 多个小时,一天就赚了 600 多元”。不过,这不是最高的,另一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。(注:拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。)但这种热度并没有持续多少,现在标注一个图片的单价越来越低,最低的只有 4 分钱。

 

即便薪资暴跌,AI 数据标注员还是难逃被 AI 取代的命运——毕竟在 AI 面前,无论成本还是效率,人类可以说是毫无优势。

 

以 ChatGPT 为例,苏黎世大学研究发现,成本上,ChatGPT 平均每个标注成本低于 0.003 美元,比众包平台便宜 20 倍;效率上,在相关性、立场、主题等任务中,ChatGPT 也是以 4:1 的优势“碾压”人类。

 

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现: GPT-4 在数据集标注表现上优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。

 

有评论认为,AI 数据标注员需要做好被 AI 取代的准备。目前在自动驾驶领域,已经有车企开始采用 AI 进行标注。

 

理想汽车董事长兼 CEO 李想曾在 2023 年 4 月份举行的一场论坛上表示,当理想汽车使用软件 2.0 的大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情,基本上 3 个小时就能完成,效率是人的 1000 倍。

 

特斯拉也一直在积极推进自动标注的进展,从 2018 至今,特斯拉的标注经历了 4 个阶段:

 

  • 第 1 阶段(2018):只有纯人工的 2 维的图像标注,效率非常低;

  • 第 2 阶段(2019):开始有 3D label,但是是单趟的人工的;

  • 第 3 阶段(2020):采用 BEV 空间进行标注,重投影的精度明显降低;

  • 第 4 阶段(2021):采用多趟重建去进行标注,精度、效率、拓扑关系都达到了极高的水准。

 

2022 年 6 月,特斯拉裁撤了 200 名为特斯拉标注视频以改进辅助系统的美国员工。目前,特斯拉的自动标注能力大幅改善,标注 10000 个不到 60 秒的视频,大模型只需要运行一周即可,而同样的工作量人工标注却需要几个月的时间。

 

但也有评论认为,当前 AI 完全取代人工标注还存在一定局限性。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 表示,“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”


参考链接:

https://www.bloomberg.com/news/articles/2024-01-14/apple-to-shutter-121-person-san-diego-ai-team-in-reorganization

https://www.infoq.cn/article/2hkNxGO1L0RamfzS6w0z?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

2024-01-15 14:385858

评论

发布
暂无评论
发现更多内容

技术​选型的艺术

YourBatman

技术选型 湖北

架构感悟 7- 性能优化何为

旭东(Frank)

web 性能压测工具

Z冰红茶

PV与UV你的网站也可以

北漂码农有话说

Kubernetes的拐点助推器:左手开源,右手边缘计算

华为云开发者联盟

Kubernetes 容器 边缘计算 华为云

关于数据库索引的知识点,你所需要了解的都在这儿了

鄙人薛某

MySQL 索引结构 索引 MySQL优化

随着并发压力的增加,系统响应时间和吞吐量如何变化,为什么?

chenzt

挑战10的1,143,913次方种算法组合:这都不是事儿!

华为云开发者联盟

华为 算法 进化 华为云

漫画:如何证明sleep不释放锁,而wait释放锁?

王磊

Java Wait Sleep

原生Ingress灰度发布能力不够?我们是这么干的

BoCloud博云

云计算 容器 云原生 PaaS

为什么我们要自主开发一个稳定可靠的容器网络

BoCloud博云

云计算 容器 PaaS fabric

百度大脑OCR技术助力钢铁物流实现智能管理

百度大脑

人工智能 百度大脑 文字识别

BIGO海量小文件存储实践

InfoQ_3597a20b53cc

Netty-物联网设备Channel管理

凸出

Java Netty ConcurrentHashMap 物联网 channel

Java如何调用Python(二)

wjchenge

程序设计理念-CentOs7实践Nginx-带来安装服务的通用法则

图南日晟

nginx 架构设计 环境安装

为啥Underlay才是容器网络的最佳落地选择

BoCloud博云

云计算 容器

超详细讲解网络中的数据链路层~

程序员的时光

第7周总结:性能

慵秋

数字货币并不能完美诠释区块链金融

CECBC

区块链技术 社会价值 打通数据孤岛 重建产业信用

web压力性能测试

周冬辉

压力测试

前浪出新招,996已过时,互联网员工都开始住公司了!(爆公司信息)

程序员生活志

加班 996 007 互联网公司

API网关——Kong实践分享

BoCloud博云

云计算 容器 PaaS API

Django Models随机获取指定数量数据方法

BigYoung

django 数据 random 随机 Models

创新监管首批8个试点应用公示 其中7个涉及区块链

CECBC

【数据结构】Java 常用集合类 ConcurrentHashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构 并发编程

【数据结构】Java 常用集合类 HashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构

Java如何调用Python(一)

wjchenge

进击的 Flink:网易云音乐实时数仓建设实践

Apache Flink

flink

创业使人成长系列 (4)- 常用账号申请

石云升

支付宝 微信商户 商标

Self-Compassion,对自己好一点

霍太稳@极客邦科技

创业 个人成长 自我管理 创业心态

工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃_AI&大模型_凌敏_InfoQ精选文章