近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ 将通过选题的方式逐一介绍各大公司如何在金融领域落地实践该技术。
在人工智能领域,技术实践,尤其是大规模落地是所有开发者高度关注的话题。然而,在实际的落地过程中,总是面临着各种问题。仅仅是最基础的数据,就已成为大多数企业技术无法取得突破的瓶颈:数据质量差——如许多数据标签难以收集,甚至没有标签;数据分散的——每家应用的数据都不一样,很难跨组织间数据合作等。随着国内关于数据的法律条例越来越严格,数据问题变得更加棘手,而联邦学习的出现则让开发者发现了解决问题的可行性。
过去几年,国内不少公司投入到联邦学习的研发中,并且已经进入落地实践阶段。本文,InfoQ 采访了微众银行人工智能部副总经理陈天健,对联邦学习各类方法在微众银行的实践进行了深入了解。
联邦学习在金融领域的应用
目前,联邦学习已经在一些关键的金融领域取得了进展,比如联合反洗钱建模、联合信贷风控建模、联合权益定价建模、联合客户价值建模等。相较于其他领域,金融领域对数据的管控更为严格,对数据隐私更加重视,因此也是最需要通过技术手段解决数据孤岛问题的领域。
陈天健表示,信贷风险管理、核保风险评估等都是联邦学习比较适合的金融应用。相对于其他领域,金融应用更着力于对风险的量化,毕竟风险价格往往是金融产品价格的主要组成部分。基于联邦学习的风险量化模型,能通过扩展数据维度,显著改善风险量化能力,从而降低整体金融产品价格,进一步提升金融服务对社会大众而言的可得性。
联邦学习三大分类体系实践
在联邦学习的分类体系中,包括:
横向联邦学习,两个数据集的用户特征 ( X1, X2, … ) 重叠部分较大,而用户 ( U1, U2, … ) 重叠部分较小;
纵向联邦学习,两个数据集的用户 ( U1, U2, … ) 重叠部分较大,而用户特征 ( X1, X2, … ) 重叠部分较小;
联邦迁移学习,通过联邦学习和迁移学习,解决两个数据集的用户 ( U1, U2, … ) 与用户特征重叠 ( X1, X2, … ) 部分都比较小的问题。
不同的分类体系,适合解决金融领域不同场景下的问题。
横向联邦学习
首先,我们来了解一下横向联邦学习的应用实践。陈天健表示,横向联邦学习的特点是数据特征相同,样本 ID 不同,金融领域的常见应用是银行处理反洗钱。
反洗钱在银行的日常运作中起着重要作用。但确定交易记录是否为洗钱活动很无聊且容易出错。传统上,银行使用基于规则的模型来过滤那些明显的非洗钱记录并手动查看其余记录。这类基于规则的模型可以提供很多帮助,但由于覆盖范围较小,因此人工审核仍然会花费大量时间。此外,虽然传统模型在已知的传统情况下效果很好,但对于未知情况,如新的洗钱形式等,却显得缺乏认知。
而通过横向联邦学习,各个机构无需建立物理模型即可共享通用模型,这可以有效解决该领域样本少,数据质量低的问题。例如,在不共享用户数据的前提下,微众银行联合多家银行建立了反洗钱模型,经过模拟测试,这一模型参与银行越多,其性能就越高。
这一应用中所使用到的联邦训练模型称为同质逻辑回归(Homo-LR)。 所有银行都提供同类数据,这意味着它们具有相同的特征,但具有不同的样品编号。 通过这种组合,整个数据集包括大量积极案例,并使模型表现良好,Homo-LR 的原理如下所示:
在每次迭代中,每一方都通过自己的数据训练模型,并将他们的模型权重或梯度发送给称为 Arbiter 的第三方。 仲裁器将所有这些模型权重或梯度进行汇总,然后更新回各方。当模型由所有人共同训练时,各方的数据永远不会从其自己的数据库中出来。推断过程也易于理解和执行:
这种方式极大提高了模型性能。lr 模型的 AUC 增加了 14%,减少了人工审核的数量和难度,下图为使用模型前后的效果比较:
纵向联邦学习
其次是纵向联邦学习,特点是数据特征不同,样本 ID 相同,这种方法可以应用在风控信贷方面。
近年来,在国家政策的支持下,小微企业贷款受到越来越多关注,已成为衡量银行发展潜力和能力的重要指标。由于风险过高,许多银行不愿向小微企业贷款,因此如何规避风险并降低小微企业的不良率尤为重要。
目前,大多数银行都将白名单机制用于小微企业贷款的风险管理,而白名单是通过筛选规则和风险模型来实现的。规则和风险模型都取决于小型和微型企业及其控制者的相关数据。对于风险管理,相关数据可以包括中央银行的信用报告、税收、声誉、财务、无形资产等。但是,对银行而言,实际上只有中央银行的信用报告,拿不到其他有效信息。纵向联邦学习为模型训练提供了一种可行的方式:不将数据泄漏给其他人,并且可以实现等效或接近完整数据模型的效果。
举例来说,假设银行拥有标签 Y 和中央银行信用报告特征 X3,合作公司拥有相关数据 X。因为缺少 Y 的信息,合作公司无法训练模型,但因为隐私安全问题,又不能直接将数据 X 传给微众银行,通过联邦学习,找到两者之间的交集,比如纳税人识别号,但这项工作不能让另一方知道,利用 RSA 加密技术,合作公司可以通过与加密的中间结果(而不是原始用户数据)交互来安全地得到相关信息。陈天健表示,银行目前能够结合发票开票金额与央行的征信数据等标签属性进行联合建模,将小微企业风控模型区分度——AUC of ROC(衡量模型区分好坏样本的评估标准之一)提升 12%。
通过使用 FATE(下文详述,这是微众银行开源的联邦学习平台),微众银行与合作公司一起训练了模型。联邦训练的模型称为异构逻辑回归(Hetero-LR)。与传统的 Logistic 回归不同,Hetero-LR 维护其模型,并使用各自的数据进行训练,使用加密的中间结果来交互,并汇总最终模型梯度,在每一侧更新模型。这提高了模型性能,与仅使用中央银行的信用评分相比,Hetero-LR 模型的 AUC 增加了 12%。随着模型效果的改善,贷款不良率明显下降。
最后,则是走在科技前沿的联邦迁移学习技术。陈天健表示,联邦迁移学习目前还处于研究阶段,是纵向联邦学习和横向联邦学习的一种增强、提升和统一,实际工业应用还有待进一步开发。
微众银行联邦学习实践三个阶段
纵观科技领域的大部分技术发展,两大重要节点:一是技术标准的确立;二是大规模落地实践。标准的完善,可以让更多企业愿意尝试该技术,大规模落地实践阶段会暴露出很多问题,这是技术走向成熟的必经之路。这两点都体现在了微众银行对联邦学习的落地过程中。
2018 年,在业务实践和行业观察中,陈天健所在团队发现训练 AI 所需要的大数据实际上很难获得,数据的控制权分散在不同机构、不同部门,“数据孤岛”问题严重,加之政策法规对数据隐私和数据安全的要求让数据共享和合作更加困难。
针对实际的业务痛点,他们发现联邦学习是一种行之有效的解决方案。从全球视野来看,随着数据保护立法不断深化,进程进一步加快,大数据合规合作的需求更为迫切,联邦学习蕴藏巨大的发展潜力。从 2018 年起,微众银行人工智能团队基于联邦学习理论研究进行相关开源软件研发,并且在 2018 年向 IEEE 提交联邦学习国际标准获批。
陈天健补充道,联邦学习的发展需要经历三个阶段,即“联邦学习理论研究发展阶段”,“批量应用落地阶段”与“联邦学习价值联盟网络建立阶段”。在经历以理论研究为重点的第一阶段之后,目前的联邦学习正在迈向批量应用的落地阶段(第二阶段)。
在第一阶段,联邦学习的探索主要是理论研究和小范围实践,搭建联邦学习生态框架。
从 2018 年到 2019 年初,微众银行发表了多篇联邦学习相关论文,对于联邦学习的概念、分类、基本原理等基础理论进行系统性研究;同时,在 2018 年向 IEEE 提交联邦学习国际标准获批;经过第一阶段探索,搭建起了理论研究、工具软件、技术标准、行业应用的多层级联邦学习生态框架,并且开始有腾讯、华为、京东、平安等生态合作伙伴加入。
第二阶段,联邦学习在更多领域行业落地,积累案例,联邦学习生态进一步扩大。
2019 年初,微众银行正式开源全球首个工业级联邦学习框架 FATE(Federated Learning Enabler),并开始尝试将联邦学习应用于金融业务中。
随着联邦学习理论研究的深入,微众银行在国内、国际大会上联合多家合作伙伴举办联邦学习研讨会,比如国际顶会 IJCAI 和 NeruIPS,国内计算机学会 CCFTF 等,吸引了更多研究者加入;FATE 开源社群也渐渐吸纳上百家机构应用和共建;行业落地在金融领域更加深入,在风控、反洗钱领域的应用均取得了很好的效果。
而在标准制定层面,IEEE 国际标准预计于今年出台草案,国内首个联邦学习团体标准于 2019 年 6 月发布,目前也在积极提案将联邦学习纳入国家标准。
2019 年至今,越来越多的合作伙伴加入,无论是 FATE 的共同开发实践,还是标准讨论、理论研究,联邦学习越来越为行业所知,也受到了政府部门的关注。
实践成果
开源框架
在实践过程中,微众银行开源了联邦学习平台 FATE,该项目于 2019 年 1 月份首次上线,近期发布了 FATE 1.2 版本,这是一种通用的纵向联邦神经网络算法解决方案,可将深度学习算法应用于分散割裂的数据中。
联邦神经网络算法的实现依赖 FATE 1.2 新增的核心功能模块:SecretShare 多方安全计算协议。同时,联邦化的特征变量相关性分析也依赖此模块。在金融风控领域,特征变量间相关性分析是一个非常重要的风控建模步骤。
据陈天健透露,FATE 项目研发大体有三大方向:
打通与三大深度学习框架 Tensorflow,Pytorch,PaddlePaddle 的互操作;
持续提升实际商业化场景中,联邦建模的性能、易用性和可管理性;
不断应对新的数据安全挑战和合规要求。
微众银行正在基于 FATE 构建一个基于联邦学习的数据合作网络。在这个网络里面,越来越多的企业可以找到对其业务有帮助的合作企业,并进行合规的安全数据合作。陈天健表示,目前正在推进的包括银行业,保险业,零售业等多个领域的批量应用落地。
标准制定
国际技术标准会为业界提供通用的技术沟通语言,无论本身是怎样的技术架构和技术工具,在统一的标准下,大家才能更好地协作,这对于联邦学习这个本身就强调“联邦”合作机制的技术范式来说尤为重要。
对于联邦学习这项新技术而言,技术标准的出台将标志着技术向更通用、更成熟的方向发展,为社会各界共建联邦生态奠定基础,同时为立法和监管提供技术依据。理想情况下,不同厂商基于同一技术标准开发的联邦学习系统可以相互协作,就像现在的网络设备一样。
作为国内“联邦学习”技术的首倡者,微众银行不断推进联邦学习的标准化建设工作。陈天健表示,根据已召开的四次联邦学习标准工作组会议的讨论,标准内容大致包含联邦学习的定义、框架,以及在 To B(企业端)、To C(用户端)以及 To G(政府端)不同情境下的场景分类、联邦学习的安全测评等内容。
从时间周期上来说,IEEE 联邦学习标准草案预计在今年上半年出台,正式的标准预期最快下半年发布。
金融企业实践建议
从一项技术真正成为关键系统和产品方案,微众银行在这个过程中也遇到了很多挑战,比如一站式建模过程的联邦化;广域网场景下的分布式加密机器学习算法的 易理解和易维护;跨站点数据传输安全性和可管理性,如何让交互部分是可以被管理和被审计的等。
对于同样希望部署联邦学习的金融企业,陈天健结合微众银行的实践经验给出了一些建议。他表示,首先,金融企业需要意识到,数据规制的严格化是个趋势性问题,因此需要在制定企业长期发展所依赖的数据战略时,将联邦学习技术作为数据发展战略的一个重要组成部分。
其次,与大数据打交道最为频密的中台部门,例如风险管理部,需要牵头对联邦学习应用进行验证和改进,以一个示范应用为突破,再推广到其他。
再次,需要选择比较靠谱的、合规的数据合作伙伴,因为联邦学习是一种数据保护技术,并不是数据保护的全部。联邦学习合规性的前提是假定各方数据采集的过程都是合规的,这一点一定要保证。
最后,技术层面要选择开放、开源、可被第三方审计的技术。一方面,开源保证技术供应的连续性;另一方面,开源保证第三方审计的可行性。比如,现已变成 Linux 基金会托管的联邦学习国际项目 FATE 会是一个比较好的选择。
采访嘉宾:
微众银行人工智能部副总经理陈天健,负责银行智能化和联邦学习技术生态的构建。曾任职于百度、迅雷、华大基因等多家科技公司,曾任百度主任架构师(T10),百度金融首席架构师,设计百度搜索、推荐、大数据、金融等多个业务的总体架构和关键系统。
评论