写点什么

一小时 12 元,我在北欧监狱里训练 AI

  • 2023-10-07
    北京
  • 本文字数:4534 字

    阅读完需:约 15 分钟

大小:2.35M时长:13:39
一小时12元,我在北欧监狱里训练AI

芬兰工资水平普遍较高,并且很少有人从事互联网行业。外媒 wired 实地走访发现,一家名为 Metroc 的大模型创业公司发现了一种新型劳动力——囚犯。

芬兰囚犯的新工作:帮创业公司训练大模型

 

在一个没有窗户的房间里,隔着一张消过毒的白色桌子,我被介绍给了一位四十多岁的女性,她有着方形下巴,用一个淡蓝色的发带把金色的头发扎成了马尾。她说:“大家都叫我果酱”,让我也这么称呼她。

 

一个星期三的早晨,在这座芬兰的监狱里,果酱给我们演示了一种新型的监狱劳动形式。

 

桌子上只有一小塑料瓶水和一台 HP 笔记本电脑。她们每三小时轮班一次,每小时可以获得 1.54 欧元(约合 12 元人民币)的报酬。这台笔记本电脑用来向果酱展示关于房地产的短文,并就她刚刚读到的内容问她是或否的问题。其中一个问题是:“上面这段话说的是房地产决策而不是申请,对吗?”

 

“有点无聊,”果酱耸了耸肩,她也不太清楚这项任务的目的。她认为,"也许她正在帮助创建一个客服聊天机器人"。

 

事实上,她正在训练一款由芬兰创业公司 Metroc 开发的大型语言模型。该公司创建了一个搜索引擎,旨在帮助建筑公司找到新批准的建设项目。为了做到这一点,Metroc 需要标注员帮助其模型理解新闻和市政文件中关于即将开展的建设项目的线索。例如,人工智能必须能够区分已经委托给建筑师或正在安装窗户的医院项目和可能仍在招人的项目。

 

在全球范围内,有数百万所谓的“网络工作者”在训练人工智能模型,教机器区分行人和棕榈树,或者描述暴力或性侵害的词语组合。通常,这类工作人员来自南半球,因为那里的工资比较低。例如,OpenAI 就用了一家外包公司,该公司在肯尼亚、乌干达和印度招聘了网络工作者。这种安排非常适合美国公司,因为它们使用全球使用最广泛的语言英语,但在南半球很难找到讲芬兰语的人。

 

这就是为什么 Metroc 转向了监狱劳动力。该公司获得了廉价的、会讲芬兰语的工人,而监狱系统则可以为囚犯提供就业机会,也为他们出狱后进入数字化领域工作做好准备。利用囚犯来训练人工智似乎有点像科技领域下游经常存在的对廉价劳动力的剥削。但在芬兰,这个项目得到了广泛的支持。

 

“数据劳动力是一个全球性的概念。但如果你仔细观察一下就会发现,芬兰的情况截然不同。”来自赫尔辛基大学的研究员图卡·莱赫蒂尼米(Tuukka Lehtiniemi)说,他一直在研究芬兰监狱中的数据劳动力。

 

果酱在哈米纳林纳监狱已经呆了四个月。这座现代化的建筑有着很大的窗户。空旷的走廊上,色彩丰富的艺术品正努力营造出愉快的氛围。要不是因为厚重的灰色安全门挡住了每个进出口,你很容易就会以为,这些房间属于一所毫无灵魂的大学。

 

芬兰监狱的开放性是出了名的,囚犯可以在附近的城镇工作或学习,但哈米纳林纳监狱不属于这一类。相反,哈米纳林纳监狱是芬兰安全级别最高的监狱,只收容女性囚犯。果酱被判了六年。根据监狱的隐私规定,wired 不能发布她的真实姓名、确切年龄或其他任何可能让人识别出她身份的信息。在这个无期徒刑囚犯服刑 12 年后就可以申请刑满释放的国家里,六年是重刑。和其他 100 名住在这里的囚犯一样,她也不被允许离开监狱。


哈米纳林纳监狱,照片由RISE提供。

 

当果酱第一次来到监狱的时候,她会看着其他女囚每天早上起床去工作:她们可以自愿做清洁、洗衣或缝纫。每六小时轮班一次,她们可以获得大约 6 欧元(约合 46.6 元人民币)的报酬。但果酱无法忍受这些工作。“我会觉得非常累,”她说。为此,有很长一段时间,她就呆在牢房里,直到有一位监狱辅导员建议她尝试“人工智能工作”。三小时一轮班吸引了她,至于报酬,有总比没有强。“虽然不多,但比呆在牢房里强,”她说。截至目前,她只轮过三次班,但已经获得了成就感。

 

这所监狱允许囚犯通过数据工作赚钱。在芬兰,这样的监狱只有三所。每所监狱都备有三台笔记本电脑,供囚犯参与这项人工智能工作时使用。这项工作没有具体的目标,囚犯按小时取酬,而不是按工作速度或质量。

 

在哈米纳林纳监狱,大约有 20 名囚犯尝试过这项工作。监狱工作导师米娜·英基宁(Minna Inkinen)留着红色的短发,她坐在果酱旁边和我们交谈。她说:“有些人确实比其他人更喜欢人工智能工作。”当我在一个星期三的早晨到到达这所监狱时,缝纫室已经忙碌了起来。囚犯们或忙着操作缝纫机,或在织物旁商量事情。但在果酱到达之前,开展人工智能工作的小房间里空无一人。英基宁解释说:”总共只有三名囚犯自愿定期参加人工智能工作,而另外两人目前正在上法庭。“果酱补充说:“我更喜欢在一个团队中做事。”她房间的门一直敞开着,这样她就可以在回答问题的间隙,与隔壁正在缝纫的狱友聊天。

 

那些问题是我在监狱以南 100 公里外的赫尔辛基的一家现代化共享办公室内手写的。在那里,我见到了个子高挑、少年感十足的 Metroc 创始人兼首席执行官尤西·维尔纳拉(Jussi Virnala)。他带着我路过一排室内秋千、一张台球桌和一群西装革履的男士,来到一个异常闷热的电话间。他解释说,这一周真让人兴奋,公司刚刚完成了一轮 200 万欧元(约合 1554 万元人民币)的融资,他计划用这笔钱来扩展北欧市场,投资者对公司与芬兰监狱的关系很感兴趣。他说:“每个人都激动不已,对这种创新方式很感兴趣,我认为从产品方面来看,这非常有价值。”

数据标注是个好工作吗?

 

将囚犯发展为劳动力的想法是维尔纳拉提出的。他们公司需要母语为芬兰语的人来帮助他们改进其大型语言模型理解建筑行业特有的语言。但在像芬兰这样的高薪经济体中,很难找到这样的数据劳动力。芬兰的福利体系可以提供可观的失业救济金,这就意味着很少有芬兰人会主动在类似亚马逊网络交易平台这样的网络工作平台上注册。“上面没有多少芬兰语工作人员,”维尔纳拉说,同时他还补充道,“自动翻译工具仍然不能很好地处理芬兰语,毕竟以芬兰语为母语的人总共也才 500 万。”

 

当维尔纳拉向芬兰监狱和青少年教养所的智能监狱项目负责人皮娅·普拉卡(Pia Puolakka)提出他的想法时,她立刻表现出了浓厚的兴趣。她说,在人工智能火起来之前,另一家名为 Vainu 的芬兰科技公司曾经也试过用囚犯做数据劳动力,但其联合创始人之间的分歧导致项目负责人图奥马斯·拉西拉(Tuomas Rasila)离开了公司,Vainu 也就退出了这个项目。

 

到 2022 年维尔纳拉提出他的提议时,普拉卡非常想恢复人工智能工作。她的工作是设法加强芬兰监狱与互联网之间的联系,使监狱更接近日益数字化的外部世界。到目前为止,监狱的独立牢房一直都配有笔记本电脑,以便囚犯可以浏览有限的网站并申请视频通话许可。她认为,数据劳动力也是这项任务的一部分。

 

这项工作的目的不是为了取代传统的监狱劳动力,比如制作道路标志或园艺工作,它的目标是为囚犯提供更多的工作类型。数据标注员三小时就轮一次班。“如果一天八小时都只做这种工作,可能会让人觉得很累,”她补充说,如果囚犯可以将数据标注与其他类型的监狱工作并行开展,那就更好了。她说,“这项工作是面向未来的,如果要为囚犯出狱后的生活做准备,那么这些技能至少与监狱提供的传统工作类型一样重要”。

 

然而,数据标注可以为囚犯提供多少可用于出狱后的工作技能还不清楚。作为 Vainu 公司联合创始人之一的图奥马斯·拉西拉(Tuomas Rasila)曾在那里管理了一年的监狱项目,他承认自己没有这方面的证据。他说,这个项目的运行时间还不足以收集证据,“我认为,让可能与社会脱节的人去学习现代社会最先进的技术是一个不错的赋能理念。”

 

其他人认为,这种新形式的监狱劳动力可能会加剧人工智能革命所带来的廉价劳动力问题。“我们正朝着一个更便捷高效的全自动化社会发展,但这往往掩盖了这样一个事实,即许多系统实际上都是依赖于人的”,来自人权观察的人工智能高级研究员阿莫斯·陶(Amos Toh)如是说。

 

在陶看来,对于网络工作者需求的增加已经引发了一种趋势,即公司更多地转向了那些几乎没有其他选择的人群:难民、国家陷入经济危机的人,现在是囚犯。

 

“这种情况很常见,”陶说,“我们这里看到的只是一个更广泛的现象的一部分,即企业正在将技术开发背后的工作外包给可能在剥削性工作条件下劳动的工人。”

 

对于数据工作是否能帮助囚犯培养数字技能,陶还也是持怀疑态度。“在监狱里,囚犯有很多提升自己的方式,比如考取证书和参加高等教育,”他说,“但我觉得,以每小时一欧元的价格为一家公司标注数据未必能帮他们取得有意义的进步。”哈米纳林纳监狱确实为囚犯提供了人工智能在线课程,但当工作人员试图解释其好处的时候,果酱坐在那里,面无表情。

 

在我与来自赫尔辛基大学的研究员莱赫蒂尼米见面后,我对于监狱项目的优点有些不那么确定了。从监狱来到 Metroc 的办公室,监狱里的女性干着每小时 1.54 欧元的工作,而公司正在庆祝 200 万欧元的融资轮,这感觉非常不协调。在赫尔辛基大教堂对面的一家咖啡馆里,莱赫蒂尼米耐心地听我描述了这种感觉。

 

但对囚犯的采访让莱赫蒂尼米有了不同的看法——他对这个项目总的来说是持积极态度的。至于薪酬差距,他认为,这些人是在监狱里,并不是主流社会中的普通劳动力。“将我作为研究员所获得的报酬与囚犯在监狱里劳动所获得的报酬进行比较,是没有意义的,”他说,“我唯一听到的负面意见是这样的工作不够多,只有很少的人可以做。”他提到了每所监狱只有三台笔记本电脑这个限制。

 

“当我们提起数据劳动力时,我们往往会想到网络交易平台,全球南部或美国农村的人,”他说。但对他来说,这是数据劳工的一个独特的本地版本,它带来了有益于社会的转变。与其他监狱劳动力相比,它为囚犯提供了认知刺激的工作,同时也代表了芬兰语言在人工智能革命中的地位。

 

莱赫蒂尼米担心,如果没有这种主动性,英语之外的语言将被下一代技术所淘汰,智能音箱仍然难以理解芬兰语。“并非所有芬兰人都能说一口流利的英语,所以在当地进行的数据标注还是有必要的,”莱赫蒂尼米说。Metroc 并不是唯一一家被迫寻找芬兰数据劳动力的公司。2011 年,国家图书馆发明了一款游戏,以激励志愿者帮助他们数字化其归档资料。2020 年,广播公司 YLE 与赫尔辛基大学及国家发展公司 VAKE 合作,请求志愿者捐赠他们的芬兰语录音。

 

在某种意义上,芬兰的监狱项目只是一个开始。有些人担心,这可能会开创一个先例:在监狱中引入更具争议的数据标签类型,比如弱化暴力内容。“即使目前在芬兰进行的数据标注没有争议,我们也必须考虑它所开创的先例,”陶说,“有什么能防止公司将有创伤性和不雅内容的数据标注外包给监狱中的人,尤其是如果他们认为那是一个待开发的劳动力资源?”

 

芬兰的监狱以帮助犯人改过自新而闻名,不知道芬兰监狱里的劳动条件在其他司法没那么先进的国家是否同样适用。根据公民权利团体美国公民自由联盟(ACLU)的数据,76% 的囚犯说监狱劳动是强制性的。拉西拉说,“美国的监狱系统与芬兰或北欧国家有很大的不同,理念完全不同。在芬兰,人们会积极推动这个项目,因为每个人都知道这是自愿的。”

 

人工智能公司需要的数据劳动力只会越来越多,为了跟上发展的步伐,它们就不得不寻找非同寻常的劳动力。随着 Metroc 规划扩展到北欧以及芬兰以外的语言,维尔纳拉正在考虑是否将监狱劳动力项目扩展到其他国家,她说“这是我们需要探索的事情”。

 

原文链接:

https://www.wired.com/story/prisoners-training-ai-finland

2023-10-07 10:264642

评论

发布
暂无评论
发现更多内容

畅捷通基于Flink的实时数仓落地实践

Apache Flink

大数据 flink 实时数仓

现成源码开发游戏直播软件:应对快速变化的技术和用户需求

软件开发-梦幻运营部

vue前端自适应布局,一步到位所有自适应

不在线第一只蜗牛

Vue 前端

XIAOJUSURVEY重磅升级,推出图形化逻辑编排能力

XIAOJUSURVEY

开源 规则引擎 可视化编排 图形化编排 问卷逻辑

JNPF快速开发平台赋能数字办公方式转变

不在线第一只蜗牛

低代码 数字化转型 数字化办公

京东面试:说说CMS工作原理?

王磊

Java智能之Spring AI:5分钟打造智能聊天模型的利器

快乐非自愿限量之名

Java 人工智能 spring AI

智源未来选择 TDengine Cloud,解锁高效能源管理

TDengine

实用指南|在多云环境中部署向量数据库

Zilliz

大数据 向量数据库 LLM 大语言模型 AICG

易点天下KreadoAI爆款视频生成功能上新 解锁出海营销新路径

新消费日报

观测云突变告警,精准预测云原生的系统异常

观测云

云原生 监控告警

数据分析与决策支持:京东商品详情API的商业价值

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

解锁企业成功密码—商品计划的神奇力量

第七在线

Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升

StarRocks

Druid Pinterest

邀请函 I 松下信息和望繁信科技邀您参加「数智时代下大数据应用的“道”与“术”」闭门会议

望繁信科技

大数据 数字化转型 解决方案 流程挖掘 流程智能

JNPF快速开发平台让业务活起来

快乐非自愿限量之名

就一次!带你彻底搞懂CSRF攻击与防御

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 CSRF 网安

相聚中国香港,共赢智能未来!华为云邀您共赴 KubeCon China 2024

华为云原生团队

云计算 云原生 KubeCON AI 人工智能

14点自动化经验

FunTester

【活动预告】研讨会+开源集市,IoTDB “登录” GOTC 2024!

Apache IoTDB

Kubernetes 监控:观测云与 Prometheus CRD 的集成

可观测技术

Kubernetes

Qwen2-Math 开源 AI 模型发布;阿里云推出首个域名 AI 大模型应用丨 RTE 开发者日报

声网

扎克伯格说AI会让推荐系统变得更强大?一文读懂什么是智能推荐系统

爱AI的猫猫头

人工智能 音视频 推荐系统 办公效率 搜索系统

远程访问内网设备:对比IPsec VPN,SD-WAN异地组网更具优势

贝锐

运维 SD-WAN 远程运维 组网

API可观察性对于现代应用程序的最大好处

幂简集成

API API 接口

全文彩印!人民邮电出版的“24小时学会黑客攻防”,讲的太好了!

我再BUG界嘎嘎乱杀

黑客 网络安全 安全 信息安全 网安

某个国外的真实XSS漏洞利用探寻

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 XSS 漏洞

JNPF快速开发平台助力企业实现工作流自动化

EquatorCoco

工作流 低代码 自动化运维

亚信安慧AntDB-T:使用Brin索引提升OLAP查询性能以及节省磁盘空间

亚信AntDB数据库

AntDB

IoTDB 单机/双活/集群部署的区别和适用场景

Apache IoTDB

阿里巴巴拍立淘API返回值:商品关联推荐与交叉销售

技术冰糖葫芦

API Explorer api 货币化 API 接口 API 测试

一小时12元,我在北欧监狱里训练AI_生成式 AI_MORGAN MEAKER_InfoQ精选文章