写点什么

谷歌发布 ML-fairness-gym:解决机器学习的公平性问题

  • 2020-02-11
  • 本文字数:3404 字

    阅读完需:约 11 分钟

谷歌发布ML-fairness-gym:解决机器学习的公平性问题

也许每一个还在追求模型效率与性能的算法工程师,都应该开始考虑将设计公平性引入自己的工作当中。事实上,在国内已经有了一个专有名词来形容这一现象 “大数据杀熟”。近几年,机器学习的公平性广泛地引起了科研与开发人员的关注。简单而言,由于不同的社会环境,导致同样的算法,预测结果可能出现较大差异。为解决公平性这一问题,日前,Google AI 推出了 ML-fairness-gym。


随着人工智能技术的发展,越来越多的机器学习系统被应用于帮助人们进行高影响力的决策,例如确定刑事判决儿童福利评估医疗资源分配以及许多其他案例。了解这类系统是否具备公平性至关重要,并且还需要了解模型的短期和长期影响。评估机器学习系统的公平性的常用方法,涉及评估静态数据集上针对系统的各种输入的误差度量的差异。事实上,许多现有的机器学习公平性工具包(例如 AIF360fairlearnfaimess-indicatorsfairness-comparison)都提供了分析工具,可以在现有数据集上执行这种基于误差度量的分析。虽然这类分析可能适用于简单环境中的系统,但在某些情况下(例如,具有动态数据收集或重要反馈循环的系统),算法运行的上下文对于理解其影响,就显得至关重要。在这些情况下,与基于误差度量的技术相比,理想情况下的分析算法决策的公平性,更应考虑环境和时间上下文的因素。


为了在这种更为广泛的背景下促进算法的开发,我们发布了 ML-fairness-gym,这是一套用于构建简单模拟的组件,探索在社会环境中部署基于机器学习的决策系统可能带来的长期影响。在论文《公平性并非静态:通过模拟研究加深对长期公平性的理解》(Fairness is not Static: Deeper Understanding of Long Term Fairness via Simulation Studies)中,对于自动化决策系统对当前机器学习公平性的学术文献中一些既定的长期影响,我们演示了如何使用 ML-fairness-gym 来对这些影响进行研究。

示例:贷款问题

机器学习系统中公平性的经典问题之一是贷款问题,正如 Liu 等人在论文描述的那样。这个问题是放贷过程的高度简化和程式化的表示,我们将重点放在单个反馈循环上,以孤立其影响,并对其进行详细的研究。在这个问题的表述中,个人申请者偿还贷款的概率是他们信用评分的函数。这些申请者也属于任意数量的组之一,他们的组成员资格可由贷款银行观察到。


最有效的阈值设置将取决于银行的目标。一家银行,为了追求利润最大化,银行可以根据申请者偿还贷款的可能性进行评估,设定一个使预期奖励最大化的阈值。另一家银行,力求对两个组都公平,可能会设法设置利润最大化的阈值,同时满足机会均等的要求,其目标是获得相同的真阳率(true positive rates,TPR,也称为召回率或敏感度;衡量本应偿还贷款的申请者中有多少人获得贷款)。在这种场景中,银行利用机器学习技术,根据已发放的贷款及其结果来确定最有效的阈值。然而,由于这些技术通常侧重于短期目标,它们可能会对不同的组产生意想不到的、不公平的后果。



上图:在 100 个模拟步骤中改变两组的信用评分分布。下图:左图为银行现金,右图为真阳率,在模拟过程中,第一组为蓝色,第二组为绿色。

静态数据分析的不足之处

在机器学习中,评估像贷款问题这样场景的影响,有一个标准实践做法是:保留一部分数据作为“测试集”,并使用它来计算相关的性能度量。然后,通过观察这些性能度量,在不同显著组之间的差异来评估公平性。然而,我们很清楚这一点:在有反馈的系统中使用这样的测试集,存在两个主要问题。如果测试集是由现有系统生成的,那么它们可能是不完整的,或者反映了这些系统固有的偏见。在贷款这一例子中,测试集有可能是不完整的,因为它可能只有已获得贷款的申请者是否拖欠或偿还的信息。因此,这一数据集可能不包括贷款尚未获批或以前未获得贷款的个人。


第二个问题是,由机器学习系统的输出所通知的行为可能会影响它们未来的输入。机器学习系统确定的阈值用于发放贷款。人们是否拖欠或偿还这些贷款,都会影响他们未来的信用评分,然后将其反馈到机器学习系统中。


这些问题凸显了在静态数据集中评估公平性的缺点,并激发了在部署算法的动态系统的情况下分析算法公平性的需求。我们创建了 ML-fairness-gym 框架,以帮助机器学习从业者将基于模拟的分析引入到他们的机器学习系统中,这种方法在许多领域中被证明是有效的,可用于分析难以进行封闭式分析的动态系统。

ML-fairness-gym :可长期分析的模拟工具

ML-fairness-gym 使用 Open AI 的 Gym 框架模拟序贯决策。在这个框架中,智能体以循环的方式与模拟环境进行交互。在每个步骤中,智能体都会选择一个动作,然后影响环境的状态。然后,环境会显示一个观察结果,智能体会使用这个观察结果来告知其随后的动作。在这个框架中,环境对问题的系统和动态进行建模,观察结果作为数据提供给智能体,而智能体可以被编码为机器学习系统。



模拟框架中使用的智能体 - 环境交互循环流程示意图。智能体通过选择的动作来影响环境。环境会随着动作的的变化而变化,并作为观察的结果产生部分内在状态。度量标准检查环境的历史以评估结果


在贷款的例子中,银行充当智能体的角色。它以观察环境的形式接收贷款申请者、他们的信用评分和他们的组成员资格,并以二元决策的形式采取动作来接收或拒绝贷款请求。然后,环境对申请者是否成功还款或拖欠进行建模,并相应地调整他们的信用评分。ML-fairness-gym 模拟结果,以便评估银行政策对申请者组公平性的长期影响。

公平性并非静态:将分析延伸到长期

自从 Liu 等人最初提出贷款问题以来,他们只考察了银行政策的短期后果:包括短期利润最大化政策(称为最大奖励智能体)和受机会均等(Equality of Opportunity,EO)等约束的政策——我们使用 ML-fairness-gym 通过模拟将分析延伸到长期(许多步骤)。



上图:最大奖励和机会均等的智能体批准的累积贷款,按申请者的组身份划分。下图:随着模拟的进展,组平均信用评分(以组条件还款概率量化)。机会均等智能体增加了第二组的贷款机会,但也扩大了两组之间的信用差距


我们的长期分析发现了两个结果。首先,正如 Liu 等人所发现的那样,机会均等智能体(EO agent)与弱势群体(即第二组,最初的平均信用评分较低)存在重叠,因为有时候对该组应用的阈值要低于最大奖励智能体所应用的阈值。这导致第二组的信用评分比第一组下降更多,导致两组之间的信用评分差距比使用最高奖励智能体的模拟更大。然而,我们的分析还发现,虽然使用机会均等智能体似乎会使第二组的情况更糟,但从累积贷款图中可以看出,处于弱势的第二组从机会均等智能体那里获得的贷款明显更多。根据福利指标是信用评分还是收到的贷款总额,可以认为,机会均等智能体比最大奖励智能体更好或更有害于第二组。


第二个发现是,在模拟过程中机会均等的约束,即在每个步骤中在群体之间实施均衡的真阳率,并不能使总体上的真阳率均衡。这个或许有违直觉的结果,可以被认为是辛普森悖论(Simpson’s paradox)的一个例子。如下表所示,两年中每一年的真阳率相等并不意味着总体上真阳率相等。这表明,当潜在人群不断发展时,机会均等度量标准是如何难以解释的,并建议需要更仔细的分析,以确保机器学习系统具有预期的效果。



辛普森悖论的一个例子。TP 为真阳性分类,FN 为假阴性分类,TPR 为真阳率。在第 1 年和第 2 年,贷款人采用的政策是在两个组之间实现同等的真阳率。这两年的总和并不具有相等的真阳率

总结与今后工作

在本文中,我们集中讨论了关于贷款问题的发现,而 ML-fairness-gym 可以用来解决各种各样的公平性问题。我们的论文扩展了先前在学术界关于机器学习公平性的文献中已经研究过的另外两个场景的分析。ML-fairness-gym 框架也足够灵活,可以模拟和探索“公平性”研究不足的问题。例如,在一篇题为《社会网络中的公平治疗分配》(Fair treatment allocations in social networks)的支持性论文中,我们探索了流行病控制的程式化版本,我们称之为精确疾病控制问题,以更好地理解社会网络中个人和社区之间的公平概念。


我们对 ML-fairness-gym 的潜力感到振奋,因为它可以帮助其他研究人员和机器学习开发者更好地理解机器学习算法对我们社会的影响,并为开发更负责任、更公平的机器学习系统提供信息。你可以在 ML-fairness-gym 的 GitHub 仓库中找到代码和论文。


作者介绍:


Hansa Srinivasan,Google Research 软件工程师。


原文链接:


https://ai.googleblog.com/2020/02/ml-fairness-gym-tool-for-exploring-long.html


2020-02-11 09:002540
用户头像
赵钰莹 极客邦科技 总编辑

发布了 884 篇内容, 共 653.0 次阅读, 收获喜欢 2681 次。

关注

评论

发布
暂无评论
发现更多内容

数据分析与AI丨大模型+知识图谱,将企业数据转化为商业价值

Altair RapidMiner

数据分析 知识图谱 #人工智能 altair #大模型

如何快速获取开源组件信息

陈老老老板

#开源 #数据

基于字节开源云原生数据仓库ByConity测试ELT需求

完美句号

MPP bsp ByConity bsp模式

深度解析Spring AI:请求与响应机制的核心逻辑

不在线第一只蜗牛

Java spring

SD-WAN的常见使用案例

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

凭借这份国内最新最全Java八股文(终极版),我成功入职字节T2-2

Summer

Java 编程 程序员 面试 架构师

天润融通助力味多美,AI技术驱动百年品牌服务升级

天润融通

深入探索Spring AI:源码分析流式回答

EquatorCoco

Java spring 前端

SaaS架构:中央库存系统架构设计

不在线第一只蜗牛

架构 SaaS

好故事,听你的!「首档程序员自述体纪录片」讲述者招募

融云 RongCloud

租用电商云手机的注意事项

Ogcloud

云手机 海外云手机 电商云手机 云手机群控

阿里拿38K出来的大佬良心分享,熬夜整理10 万字详细Java面试笔记!

Summer

Java 编程 程序员 面试 架构师

im即时通讯是什么?

BeeWorks

解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾

TDengine

数据库 tdengine

Spring事务的一道面试题

快乐非自愿限量之名

spring

WorkPlus即时通讯(IM)系统:功能解析与企业应用

BeeWorks

免费且好用的项目管理工具有哪些?2024年精选13款

爱吃小舅的鱼

项目管理工具

Taobao Agent Russia丨俄罗斯淘宝代购集运系统PHP搭建攻略

tbapi

淘宝代购系统 淘宝代购集运系统 俄语网站建设 俄语淘宝代购系统

应用程序开发加速包:12个最佳开放API

幂简集成

API 开放 API

数据可视化的发展趋势

inBuilder低代码平台

数据可视化

文献解读-Phenotypic expression and clinical outcomes in a South Asian PRKAG2 cardiomyopathy cohort

INSVAST

基因数据分析 多组学 生信分析 Sentieon 变异检测

技术沙龙演讲实录 | 张俊钦:火山引擎边缘智能,联通大模型的物理世界

火山引擎边缘云

智能IoT边缘服务 AI Agent AI Agents 边缘智能

中小企业OKR软件推荐:8款主流工具对比评测

易成研发中心

阿里P8精心整理MongoDB+RabbitMQ+Memcached面试题,100%拿offer

程序员高级码农

Java 编程 程序员 java面试 Java面试题

天润融通亮相CCFA论坛:AI Agent引领零售业服务精细化运营

天润融通

BiFinance 币汇携手上市公司鼎亿集团,加速 RWA 赛道 Web3 布局

TechubNews

11Labs 推出 Conversational AI,可定制交互式语音智能体;Recall.ai:视频会议智能体通用 API

声网

IM即时通讯技术栈与界面设计:WorkPlus的实践与创新

BeeWorks

AI人工智能软件哪个好?30个办公常用的ai工具盘点!

职场工具箱

人工智能 AI 办公软件 AIGC AI生成PPT

观测云采集云资源自定义标签最佳实践

观测云

云计算 云资源

谷歌发布ML-fairness-gym:解决机器学习的公平性问题_AI&大模型_Hansa Srinivasan_InfoQ精选文章