HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

机器学习如何引入偏见

  • 2017-01-21
  • 本文字数:2503 字

    阅读完需:约 8 分钟

在今天以大数据、人工智能为代表的科技发展的日益成熟,人类将面临着从进化到智人以来最大的一次改变。现在人类看到了另一种力量的崛起,这就是机器。人工智能今年的突飞猛进不断地敲打着人类的神经,全面超越人类将指日可待。既然人类的一切行动都是由生物的算法所掌控的,那么在这一点上,人工智能和人类没有本质的区别,而人工智能会比人类有更高效的计算。人类将不可避免被机器代替的命运。

随着人工智能的发展,人类将会把越来越多的决策权交给机器。但是,从目前的一些事例看,基于机器学习的决策并非那么公正完美,相反,那些决策也渗透着偏见。机器学习一直缺乏防止这类偏见,而且是基于敏感属性的审核方法。目前仍然缺乏一种可靠的方法,来避免机器学习可能产生的偏见。

Jesse Emspak 科学美国人上发表了一篇文章,表示了他对机器学习的偏见问题:人工智能会引入人类创造者的偏见,而不是冰冷的逻辑。

InfoQ 翻译、整理 Jesse Emspak 这篇文章,将他的观点分享出来,以飨广大所有关心人工智能的读者。

如果人工智能接管我们的生活,人类与机器人之间可能不会发生战争,因为机器人像(星际迷航的)外星人混血儿斯波克那样无情奴役人类。相反,为你推荐电影、人脸识别等的机器学习算法可能有一天,拒绝你的贷款申请、把警察叫到你家附近、或者告诉医生你需要节食……既然是人类创造的机器学习算法,如果创建算法的人带有某种偏见,就有可能使算法导致错误的决定,以及更槽的结果。 这些偏见使我们对日益依赖的人工智能基础产生了严重的关切,因为人类设计的人工智能系统哪怕是绝对“公正”的,也会逐渐积累人类的偏见思维。例如,某个人工智能程序并未特别考虑种族,但程序却将黑人标记为在未来更有可能犯罪的人

主要问题有两个:首先,用于训练机器学习算法的数据有时不够;其次,算法本身可能设计不合理。机器学习是软件开发人员使用大量与手头任务相关的数据来训练人工智能算法的过程。最终,算法基于最初提供的数据形成模式集,以识别新数据中的类似模式。但是算法并不总按计划运行,导致可怕的结果。例如,2015 年6 月,Google 的照片分类系统将两位非裔美国人误判为“大猩猩”。尽管该公司迅速解决了这个问题,但微软人工智能研究员Kate Crawford在纽约时报指出,这种错误反映了人工智能的一大问题:“白人问题”。也就是说,用于训练软件的数据过于依赖白人的照片,导致系统无法准确识别具有不同特征的人。

最近,一系列不实报道向Facebook 用户的动态消息(News Feeds)潮水般涌来,凸显了人工智能的偏见问题。Facebook 的热门新闻(Trending News)算法是基于用户参与度(用户点击率或分享率)来确定新闻优先级,根本没有考虑新闻的真实性。11 月初,一些新闻媒体透露,在美国大选期间,一群Macedonian 青少年愚弄了Facebook 的动态消息算法,公然传播不实报道,呼吁右翼选民投票。Facebook 表示,已修改算法,并宣布计划,将同 Snopes Factcheck.org ABC News PolitiFact 将帮助共同验证每一条新闻的真实性。

Maryland 大学计算机科学系副教授 HalDaumé三世表示,“这有点像‘俄罗斯坦克问题’”。这个传说是杜撰的,但是有代表性,因此常常被计算机科学的老师们引述:这个传说讲的是 20 世纪 80 年代早期,美国军队试图训练计算机来区分照片中的俄罗斯坦克和美国坦克。“算法的分类精度很高,但所有的训练照片中,俄罗斯坦克的照片是模糊的,而美国坦克的照片是高清的。”Daumé解释道。算法学会了区分模糊照片和高清照片,而非识别坦克。

尽管存在这样的已知限制,最近,一组研究人员还是发布了一项研究报告,指出算法可以通过评估人脸特征来推断某人是否为罪犯。中国上海交通大学的研究员 Xiaolin Wu 和 Xi Zhang 基于 1856 张人脸照片(其中 730 张犯罪分子照片、1126 张非犯罪分子照片)的数据集训练人脸识别算法。在看完数据集中 90% 的图片后,人工智能可以正确判断剩下的 10% 图片中,哪些是罪犯。

根据这项研究报告的说法,该算法将特定人脸特征与犯罪相关联。Xiaolin Wu 表示,罪犯的眼角、嘴唇和鼻尖更可能存在特殊的空间关系。虽然,有这样的特征的人不一定表示就是罪犯,但可能性比较高。Wu 还发现,犯罪分子的人脸特征差异比较大,而非犯罪分子往往具有相似的特征。

Wu 继续使用一组新的照片来测试算法,发现多数时候,算法能正确标识出罪犯。为了避免引入偏见,研究人员只使用面部无毛发、无疤痕的青中年中国男性照片来训练和测试算法。

Wu 表示:“我准备开始反驳那些反对者的观点,我们对这个结果都感到惊讶。”尽管这项研究可能验证了骨相学的某些观点,但是他承认,直接用这种技术来判断罪犯太“疯狂”了,而且还表示,不打算将其用于执法部门。

另一些科学家认为,Wu 和 Zhang 的研究发现,可能只是增强了人工智能系统的现有偏见。Google 的首席科学家 BlaiseAgüeray Arcas 指出,受试者的犯罪行为,是由人类的司法系统来决定的,可能存在潜在的偏见。Agüera y Arcas 补充道,该报告的核心问题是,罪犯的依据是人类涉及的系统本身,然后不带人类偏见的机器学习给出该结论。

“Wu 和他的同事直接跳到结论:他们发现人脸结构特征可以预测犯罪,这是非常鲁莽的结论。”Washington 学院数学系助理教授 Kyle Wilson 如此道。他还表示:这种算法可能只是在某个司法系统反映了人类的偏见,在其他任何国家也可能会出现这种情况。他说:恰恰相反,他们只是教会了计算机重现人类相同的偏见。

还有人认为,可以通过解决计算机学习模式中的错误来改进该算法,避免人为的偏见。瑞士人工智能实验室 Dalle Molle Institute 的科学总监 Jürgen Schmidhuber 表示:人工智能系统在学习时会犯错误实际上,它一定会犯错,这也是为什么称之为“学习”。他补充道,计算机只能学习给予的数据中所包含的信息。“你不能消除所有这些偏见的源头,就像你不能消除这些人类的源头,”我们得承认这一点,然后确保使用的数据和算法的设计相对“公正”,或者记住老程序员的话:一步错,步步错。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-01-21 18:001840
用户头像

发布了 375 篇内容, 共 186.6 次阅读, 收获喜欢 945 次。

关注

评论

发布
暂无评论
发现更多内容

开源共建下一代智能终端操作系统根社区 OpenHarmony携手伙伴聚力前行

科技汇

Last Week in Milvus

Zilliz

非结构化数据 Milvus Zilliz 向量数据库 zillizcloud

如今做泛娱乐出海,你需要融云《社交泛娱乐出海作战地图》

融云 RongCloud

产品 互联网 融云 泛娱乐 出海

中盐集团:以财务共享为基础,引领盐行业数智化转型

用友BIP

财务共享

瓴羊Quick BI:可视化大屏让数据呈现更直观

夜雨微澜

DevStudio编辑器使用技巧

坚果

OpenHarmony3.2 6 月 优质更文活动

你会怎样设计云原生场景下的IOC框架?

K

原创 云原生 ioc spring ioc

提升用户体验:在小程序环境中充分利用Ionic框架

FinFish

Ionic 跨端开发 小程序容器 跨端框架 小程序容器技术

STM32+DHT11监测环境的温湿度

DS小龙哥

6 月 优质更文活动

KW 新闻 | KaiwuDB 受邀亮相 IOTE 2023 第十九届国际物联网展

KaiwuDB

工业物联网 KaiwuDB IOTE

扬帆启航丨九科信息亮相2023全球数字经济大会(GDEC)新加坡分会场

九科Ninetech

揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor

Apache Flink

大数据 flink 实时计算

专注开发者体验 | GitOps 实现 Kuberentes 持续部署

亚马逊云科技 (Amazon Web Services)

云原生

C语言编程—可变参数

梦笔生花

C语言 可变参数 6 月 优质更文活动

OpenHarmony工程模板和开发语言

坚果

OpenHarmony 6 月 优质更文活动

KW 喜报 | KaiwuDB 斩获 2023 数博会“优秀科技成果”奖

KaiwuDB

KaiwuDB 离散制造业解决方案 2023数博会

出海如何从0到1?融云《社交泛娱乐出海作战地图》实战经验揭秘

融云 RongCloud

互联网 社交 融云 泛娱乐 出海

智能人才发现,帮助企业精准找人,快速识人

用友BIP

数智人力

使用containerd从0搭建k8s(kubernetes)集群

tiandizhiguai

k8s

社交泛娱乐出海如何抓住AIGC?我在融云WICC上看到了答案

融云 RongCloud

社交 融云 泛娱乐 出海 通讯

聊聊数科公司如何与现有数智平台厂商协同作战

用友BIP

数科公司 数智平台 数智平台白皮书

把钢铁侠战衣交给Z世代,没想到联想商用PC可以这么炫酷!

脑极体

联想 PC

飞桨AI4S污染物扩散快速预测模型,亮相全国数据驱动计算力学研讨会

飞桨PaddlePaddle

飞桨 #人工智能

2023-06-12:如果一个正整数自身是回文数,而且它也是一个回文数的平方,那么我们称这个数为超级回文数。 现在,给定两个正整数 L 和 R (以字符串形式表示), 返回包含在范围 [L, R] 中

福大大架构师每日一题

算法、 福大大架构师每日一题

快速掌握Kubernetes中的核心概念

穿过生命散发芬芳

k8s 6 月 优质更文活动

中企出海,海外商旅费控的关键点是什么?

用友BIP

中企出海

如何在 Jupyter Notebook 用一行代码启动 Milvus?

Zilliz

Jupyter Notebook 非结构化数据 Colab AIGC 向量数据库

高能预警!融云WICC发布《社交泛娱乐出海作战地图》

融云 RongCloud

互联网 地图 融云 即时通信 出海

直播回顾|走进元服务,携手小强停车探索鸿蒙新流量阵地

HarmonyOS SDK

HMS Core

​“前端已死”甚嚣尘上,全栈工程师卷到起飞

引迈信息

前端 低代码 全栈 JNPF

助力金融业数字化转型,原点安全将出席“2023 中国金融业数字化转型发展大会”

原点安全

数据安全 金融行业 uDSP 消费者个人信息保护

机器学习如何引入偏见_语言 & 开发_刘志勇_InfoQ精选文章