写点什么

同样是解决数据问题,为什么需要联邦学习?

2020 年 3 月 31 日

同样是解决数据问题,为什么需要联邦学习?

近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ 将通过选题的方式逐一介绍各大公司如何在金融领域落地实践该技术。


发展至今,联邦学习技术在众多领域均有落地,尤以金融领域居多,并且取得了不错的效果。但是,依旧有不少企业对是否要部署该技术存在疑问,有技术层面的原因,也有对效果的担忧。


根据康威定律,技术发展与其组织存在必然联系,联邦学习的技术推动是否也和组织有关系?同样是解决数据问题,联邦学习和数据中台的关系是什么?落地时要如何打通?针对这些问题,InfoQ 采访了京东数字科技集团金融科技事业部技术部智能数据负责人王知博,深入了解京东数科联邦学习的发展过程,在金融领域的落地实践以及对企业落地的建议。


数据中台和联邦学习的关系是什么?


过去一年,中台相关话题甚嚣尘上,不仅是互联网企业,很多传统企业都参与到了数据中台的建设中,基于数据提高企业运营效率。从 Hadoop 集群的开发运维,到构建大数据平台,再到数据中台建设,这是很多大型互联网公司大数据的建设历程。


如今,联邦学习同样打着“解决数据孤岛”问题的旗号出现,不免让开发者心生疑虑:同样是为了解决数据问题,我真的需要这么多东西吗?


对此,王知博表示,数据中台和联邦学习是有本质区别的,联邦学习需要使用数据,而数据的治理和加工需要有数据中台的支持。如果企业中还没有建设好数据中台,那么只要把相关使用到的数据准备好,同样可以支持联邦学习技术应用。简言之,数据中台为联邦学习提供了良好的数据环境。


联邦学习是一种分布式机器学习框架。所谓“联邦学习“,是不同于机构之间拥有独立的数据和独立的模型,联邦学习通过技术手段将机构之间的建模过程联系在一起,同时又保持机构之间的数据独立,在数据不共享的情况下共同建模,提升模型效果,这样就解决了传统手段下数据安全防控的问题。


王知博补充道,具体来说,联邦学习通过密码学技术,在数据加密的情况下可以完成数据的安全计算,确保数据的隐私性。技术原理的示意图如下:



在技术细节上,主流的安全计算有 PHE 与 Secure Share。对比 PHE 与 Secure Share,PHE 不需要将数据加密分片共享,减少信息的暴露,但是在训练阶段,PHE 则需要更多的网络传输,不过在 PHE 安全计算协议中,也存在明显的缺点,即延展性攻击风险。


如果企业已经具备数据中台,那么在落地联邦学习的过程中,首先遇到的问题是如何与企业数据中台打通,这涉及数据安全、合规问题,需要确定联邦学习平台的数据范围、数据颗粒度、数据脱敏、加密等问题。其次是机器资源成本问题,企业应利用内外部云计算资源,部署联邦学习所需要的大数据计算资源(实时计算,离线计算),降低机器和维护成本。最后,技术门槛较高,涉及技术众多,例如:密码学、分布式网络与计算,机器学习等,这都增加了联邦学习探索应用的难度。实际应用过程中,也会遇到计算慢的问题,以 GDBT 模型为例,与传统 xgboost 对比,训练时间可以要多上数倍到数十倍,这需要学术上提出更好的解决方案。


联邦学习是“一把手”工程吗?


除了技术上的准备,联邦学习在企业内部的推进也会遇到组织问题。王知博表示,任何事物的产生发展都有其背景,人工智能时代,模型训练需要大量的数据,但现实却是数据独立存在于不同机构当中,因为隐私安全等问题难以聚合在一起,难以将数据价值最大化,这应该是一个源于具体业务问题“自底向上”的技术解决方案。但是目前联邦学习未形成行业标准,如:应该采取哪种加密方式,每个项目都是 case by case,所以需要“一把手工程”从公司层面推进解决,做好顶层设计。


关于联邦学习的标准,王知博表示,预计还需要一至两年的行业探索与实践,才可以制定出相关的标准与规范。联邦学习大规模落地的核心还是对业务应用产生价值,以智能信贷风控为例,需要建立联邦安全联盟,通过合理的生态机制,引入更多的参与方,从而更全面的刻画用户,提升模型效果,有效识别信用风险,提升业务收益。


联邦学习在金融领域的应用


如上文言,联邦学习技术在金融领域有诸多落地案例,并且均取得了不错的效果。众所周知,在金融领域落地一项技术是非常谨慎的,尤其是和数据相关的技术。因为,金融领域属于强监管领域,对数据安全要求很高,数据一般都涉及隐私,并分布在不同的银行和机构中,监管对这类数据管理很严格。


采访中,王知博表示,目前,很多合作银行在联合建模的合作中担心数据安全的问题,但也希望引入外部数据源进行补充。通过联邦学习,可以在保证数据安全的同时,整合不同金融机构间强金融属性数据,形成对用户的较为完善动态的描述,这样可以在信贷风控建模、营销客户价值与偏好等领域提升模型效果,促进业务发展,实现降本增效。


在金融领域,联邦学习可以解决联邦迁移学习、数据安全查询、纵向联邦、横向联邦等问题。在应用层面,纵向联邦与数据安全查询是比较容易看到效果的。以信贷风控、营销联合建模为例,联邦学习可以在安全条件下,结合金融机构与外部数据源的数据,训练机器学习模型,对比传统联合建模方式,可以学到更多信息,在联邦学习联合建模探索中,模型效果往往可以提升 20%以上。


京东数科联邦学习实践


在联邦学习的探索过程中,京东数科大致可分为如下两个阶段。


第一个阶段,搭建一站式联邦学习建模平台。


王知博表示,这个阶段需要统一管理数据源与模型全生命周期,降低联邦学习模型开发成本、提高开发效率。目前,京东数科已经完成一站式联邦学习建模平台的建设。


第二个阶段,服务业务落地。


目前,联邦学习在信贷风控、智能营销等方向均有一定应用,并在实践中逐步验证效果。在实践的过程中,京东数科也发现一些问题:一是在多机构方参与场景下,如何让各方理解并接受联邦学习的效果,如何保证各方参与积极性是目前需要探索的;二是当前阶段业内联邦学习的实现方式较多,缺少统一的标准。


经过探索,京东数科旗下数字金融版块有自有信贷类业务,实践中需要对用户的违约风险进行精准度量,因此积累了大量的数据建模经验,并且京东数科正在将这样的技术能力输出给一些合作银行,辅助其提升风控能力。对于银行内部不活跃、数据覆盖“薄”的弱识别用户,补充外部平台的消费和金融数据,利用纵向联邦 GBDT 算法进行训练。示意图如下:




银行拥有用户是否逾期的标识 Y 和客户少量信息,京东数科侧拥有关于用户的各类标签。双方通过加密 ID 对齐技术找到用户交集,在建模过程中传递的也是加密的梯度信息,训练完成后双方各持有一半模型,中间没有数据出库,真正做到数据可用不可见。因为补充了数据维度,同时,不同特征交叉提供更多信息增益,最终,联邦模型效果比各自建子模型再融合 KS 提升 20%,这可以提高银行信贷审批通过率,有效降低不良水平。


未来规划


当前,联邦学习技术在工业界已开始有落地尝试和案例,各家企业的技术选型不同,联邦学习标准也尚未统一。近日,京东数科宣布成立京东数字科技产业 AI 中心。该中心集成了京东数科集团旗下 AI 实验室、数据智能实验室、智能风控实验室、AI 机器人实验室等多个科技研发机构的 AI 研发力量。随着产业 AI 中心的成立,京东数科在联邦学习技术上将会进行更深维度的挖掘和拓展。有理由相信,京东数字科技产业 AI 中心将为业界带来联邦学习技术的研究成果,未来可期。在研发与应用方面,王知博认为需要重点解决研发和应用层面的问题,比如,在研发方面提升联邦学习平台的易用性、可用性、兼容性。在兼容性上,需要与企业数据中台体系打通、降低数据维护、开发成本。解决安全计算带来的消息通信膨胀、网络传输等问题。


在应用方面重点是深耕金融业务场景,以智能信贷风控为例,需要建立联邦安全联盟,通过合理的生态机制,引入更多的参与方,从而更全面的刻画用户,从而提升模型效果,有效识别信用风险,提升业务收益。


嘉宾介绍:


王知博,京东数字科技集团金融科技事业部技术部智能数据负责人,目前有 10 余年互联网分布式研发经验,2015 年数科成立金融科技事业部后,带领团队开展数据智能相关工作,结合数科自身经验与机器学习技术帮助银行建设并拓展在线信贷风控能力,数字营销能力。


2020 年 3 月 31 日 10:501797
用户头像
赵钰莹 InfoQ高级编辑

发布了 652 篇内容, 共 387.3 次阅读, 收获喜欢 2102 次。

关注

评论

发布
暂无评论
发现更多内容

音乐创作者必备软件,轻松玩转原创

奈奈的杂社

音乐制作 编曲 电音 作曲 乐团

端-边-云全面协同创新 英特尔携手百度共推产业智能化升级

intel001

彻底理解JavaScript执行上下文

Walker

Java 前端 this指针 函数执行

解Bug之路-记一次JVM堆外内存泄露Bug的查找

无毁的湖光

Linux JVM heap memory GC Linux Kenel

所见即所得的用户增长技术背后是如何实现的

海豚调度

用户增长 大数据技术 大数据架构 用户增长技术 ad-hoc技术

如何正确设置Java.home

谷鱼

@所有人 Flink Forward Asia 2020 向您发出议题征集邀请!

Apache Flink

flink

滴滴基于 Flink 的实时数仓建设实践

Apache Flink

flink

设计模式只是一把锤子

博文视点Broadview

读书笔记 编程 面向对象 设计模式

架构师期末作业

傻傻的帅

知识点总结

Acker飏

我敢说,这个版本的斗地主你肯定没玩过?

华为云开发者社区

命令行 游戏 斗地主

区块链技术最重要价值所在

CECBC区块链专委会

区块链 数字经济 互联网革命

区块链技术与我们的生活将并存

CECBC区块链专委会

区块链 数字经济

开源决策树工具xDecision简介

赫杰辉

决策树 可视化 简化代码

LeetCode题解:206. 反转链表,双指针,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

拥抱K8S系列-07-部署K8S集群(Rancher)

张无忌

Kubernetes rancher

两年Java工作经验涨到23K,这究竟是怎么做到的?

Java架构师迁哥

区块链交易系统开发,期货合约平台搭建

13823153121

Mysql学习笔记:分库分表(sharding)

马迪奥

MySQL Sharding

云图说 | 华为云GPU共享型AI容器,让你用得起,用得好,用的放心

华为云开发者社区

gpu caffe

SpringBoot写后端接口,看这一篇就够了!

华为云开发者社区

后端 swagger pringboot

Mysql学习笔记:InnoDB索引结构浅析

马迪奥

MySQL 索引结构 innodb

阿里P9技术专家:Java程序员这些必备技能的进阶书籍一定要读一读

Java成神之路

Java 学习 程序员 面试

如何让知识图谱告诉你“故障根因”

华为云开发者社区

华为云 知识图谱 图谱

用Go-Guardian写一个Golang的可扩展的身份认证

朱亚光

go golang 微服务 身份认证

不懂 ZooKeeper?没关系,这一篇给你讲的明明白白

海星

阿里P8大牛手写的源码笔记:Java集合+Java多线程+MyBatis+Spring

Java成神之路

Java spring 面试 多线程 mybatis源码

区块链合约层是一种自动执行的数字协议

CECBC区块链专委会

区块链 智能合约

牛批!清华毕业的Java大牛用一个坦克大战游戏项目来演示设计模式

Java成神之路

Java 学习 编程 程序员 设计模式

USDT跑分承兑系统开发,区块链支付平台搭建

13823153121

NLP领域的2020年大事记及2021展望

NLP领域的2020年大事记及2021展望

同样是解决数据问题,为什么需要联邦学习?-InfoQ