在数字化的时代,数据成为新的驱动力,但随之而来的数据隐私与安全问题也日益凸显。蚂蚁集团的王磊博士作为隐私计算领域的专家,不仅深度探讨了“隐语”的核心理念,更分享了其背后的起源与目标。他提到,“隐语”是蚂蚁开源的隐私计算框架,旨在通过技术手段确保数据在流通中的安全与隐私。而这背后,蕴含着蚂蚁对数据安全流通的前瞻性预判与坚定承诺。本文将深入探索王磊博士的这些独特视角,以及他对数据隐私与价值流通的深刻思考。
Part1:数据要素与隐私计算技术发展
InfoQ:可否简述“隐语”项目的基本概念、起源和初始目标?
王磊:『隐语』是蚂蚁开源的一套可信隐私计算框架,目标是通过技术信任解决数据要素流通过程中的数据安全和隐私保护问题,整个项目不仅包含了目前几乎所有主流的隐私计算技术,还提供了规模化生产所需要的稳定性和可视化能力。这个项目最早是蚂蚁的一个内部项目,早在 2016 年底,蚂蚁的领导者们就对数据安全流通的大方向做了预判,成立一个专门的项目组(叫共享智能),来探索如何实现数据的可用不可见,从而达到数据安全流通的目的。项目探索之初,主要是围绕蚂蚁内部的业务场景进行研究和孵化,随着技术的逐渐成熟,和国家数据要素流通战略的推进,蚂蚁在去年决定把这项技术开源出来,希望通过开源来加速隐私计算技术的发展,助力国家数据要素流通的战略。
InfoQ:第一次听到“隐语”这个词语的时候,便非常好奇这个项目的名称,它有何特殊的寓意吗?
王磊:隐者,信可留,数据保护可安全合规;语者,声可达,数据价值可有效流动。这是整个团队经过讨论碰撞后想出来的名称,希望能见名知义,体现出这个项目最重要的两个特点:1)支撑隐私保护和数据安全,2)助力数据要素价值流通。
InfoQ:请分享一下从隐语项目开源到现在的关键里程碑及重大成果?
王磊:自 2022 年 7 月隐语开源至今,经历了近 10 次的更新发版,我们一直在通过与广大开发者共建的过程中,持续调研与吸收建议,通过开源的形式也让更多的专业人才能够低成本地参与到隐私计算的技术贡献中,与隐语形成合力。以下列举其中几次发版进展,也可以看到隐语始终在演进与提升:
2022 年 7 月,我们开始开源,在功能方面推出了一系列联邦学习和隐私增强机器学习算法;在预处理方面,新增水平场景下的数据标准化、离散化、分箱功能,以及垂直场景下的相关系数矩阵、WOE 分箱功能,无缝对接已有的 Dataframe,提供和 Sklearn 一致的使用体感;在安全方面,隐语进一步完善了密态设备的架构体系,新增同态加密设备,该设备支持 Paillier 同态加密算法,并向上层提供 Numpy 编程接口。同时,新增差分隐私安全原语,因此增强了对拆分学习的隐私保护。
2023 年 3 月 发布隐语 V0.8.0 版本。为满足多方协同的数据分析需求,隐语构建了全新的“基于多方安全计算的数据分析引擎 SCQL”。隐语基于 MPC 技术内核的底层抽象 SPU 设备,创新实现了一种类似 SQL 的多方安全分析语言 "SCQL"。这种语言继承了 SQL 作为常用数据分析语言的普及性、易学性和高成熟度,同时还拓展了标准 SQL 的语义,可以描述基于多个数据源的安全计算,通过“SELECT FROM”、“JOIN ON”、“GROUP BY”等语句的组合搭配,即可完成联合分析的统计结果生成。
2023 年 7 月 发布隐语 V1.0 版本。不仅进一步扩大了开源范围,还对整体架构进行了调优拓展,核心内容涉及产品层、资源层、互联互通等板块,总体效果涵盖性能优化、易用性跨越式提升、互联互通形态丰富。隐语 1.0 版本带来全新的 MVP 部署体验包,将用户体验反馈转化为成熟的产品能力,站在隐私计算初学者的角度,尽可能将准备步骤嵌入安装部署流程,提高用户与隐私计算功能直接面对面的效率;
23 年 9 月 发布隐语 V1.1.0 版本,隐语平台(SecretPad)正式开源,复刻 MVP 部署包已发布的全部功能,另新增节点注册功能,使 SecretPad 初步具备 PoC 演示能力,用户可根据自身需求在任一层级定制自己的想要功能,打造属于自己的隐私计算产品。
InfoQ:隐语隐私框架在哪些行业或领域得到了较为广泛的应用?在实际应用过程中遇到的主要挑战有哪些?您和您的团队是如何克服这些挑战的?
王磊:应用最广泛的是金融领域,场景主要是信贷风控和银行卡营销。此外在广告营销,保险核赔,联合医疗等领域都有比较广泛的应用。挑战主要来自于两方面。首先是技术上,作为前沿的技术方向,隐私计算在一些能力上是不太能满足业务场景的需求的,我们尝试从多方面入手去解决这些问题,包括但不限于对需求场景进行重构、在隐私计算的各条技术路线上进行技术突破、融合多条技术路线扬长避短;其次是在心智上,因为隐私计算核心是要确保数据的安全流通,但安全在没有出问题前,在用户侧是很难被感知的,这导致很多技术和产品片面地为了追求性能和效果,在安全上混水摸鱼,我们一方面通过各种科普和宣传,加强用户的安全心智,另一方面也努力通过技术上的研究和突破,让隐语在确保安全水位不降低的前提下,性能和效果都有较大程度的提升,满足用户的场景需求。
InfoQ:在项目开展中,有哪些实际应用场景对项目理论研究和技术升级产生了推动?
王磊:比如在做金融风控的场景时,由于专线带宽的限制,基于 MPC 的金融风控建模性能无法满足要求,于是我们针对风控常用算法上进行了攻坚,通过深入的优化,最终在性能上满足了业务需求,其中 LR 和 XGB 两个算法分别被 KDD21 和 CIKM21 录用。早期我们支持各种场景算法时,每个算法都是从上到下完全自己开发,开发和维护成本极大,后来团队同学创新性地提出了基于编译器的 SPU 架构,使得上层可以复用现有的机器学习框架,效率和扩展性得到了极大的提升,这个工作也被 USENIX ATC23 录用。类似的场景推动技术升级的例子还有很多,本质上是场景的输入帮助技术指明了发展的方向,而技术的突破又能帮助场景落地实现技术价值。
InfoQ:在进行隐私计算过程中,如何确保数据的安全性并符合相关法规?
王磊:传统的系统安全主要聚焦在存储和传输过程中的安全性,针对的是系统外部的攻击者。而狭义的隐私计算主要是指计算过程中的安全性保障,主要针对的是系统内部的计算和数据参与者。两者的目标是不同的,因此从安全保障上,需要两种技术同时使用。而广义的隐私计算还包括受控匿名化,数据跨域管控等技术,这些技术是针对当前个保法,数据二十条等法规如何落地实现的重要探索。
Part2:数据要素行业的未来展望
InfoQ:在全球化数据交流的大背景下,数据要素行业未来五到十年内将面临的主要挑战和机会是什么?
王磊:挑战主要来自于几方面。1)法律法规的完善。与其他要素相比,数据有其独特的特点,如何在法律法规层面支撑数据要素合法合规的流动是一个巨大的挑战,当前的三权分置是一个很好的尝试。2)数据要素的应用场景能不能丰富起来。目前数据的商业化应用主要还是集中在金融和营销领域,使用的都是个人数据,而个人数据又面临着隐私保护的问题,探索和实践新的数据要素使用场景,激发数据要素多样化的商业需求,从而推动更丰富的、有商业化价值的数据产生,是未来数据要素行业做大的一个重要条件。3)技术能力上是否能支持大规模的数据要素安全流通。确保数据安全是数据要素大规模流通的一个前提条件,作为数据安全技术之一的隐私计算,目前还不具备支撑大规模数据安全可信流通的能力,技术上的突破也会是未来需要解决的挑战之一。
InfoQ:有哪些新技术或新理论可能在未来改变数据要素行业的格局?
王磊:当前的每条技术路线都有其优劣势,也都在进行持续的探索,哪一条技术路线未来能够有所突破并能找到适合自身应用的大规模商业化场景,目前看还是不清晰的。对于多种技术路线的融合,比如蚂蚁的 TECC 技术,学术业的 PPMLAC 技术,也是大家尝试的方向。可能未来行业的应用并不会是基于某一种技术,更多的是通过多种技术融合来解决行业问题。
InfoQ:对于推动数据要素流通共享,金融企业应该在技术和管理上做出哪些准备和改进?
王磊:数据要素流通共享是国家的趋势,有可能会改变很多行业的格局,提前进行针对企业自身场景的探索和布局可能会应用未来变化的重要手段。此外,作为数据要素流通的关键技术之一,企业首先需要对隐私计算技术,尤其是对安全假设和其实现的安全性,有更多的理解,这样才能根据自身的场景做更好的选型,避免在未来数据要素流通过程中因为隐匿的安全问题导致大规模数据泄露。
InfoQ:在数据共享过程中,应该如何更好地保护数据提供方的利益,防止数据被滥用?
王磊:确保数据安全是一个非常复杂的过程,涉及到管理、流程、技术、意识多个方面。传统的数据共享防止滥用通常是通过沙箱技术来实现的,未来在一部分安全要求不高的场景中,沙箱和运维权限的限制仍然会是一个重要的手段,但是对于一些安全性要求相对较高的数据,通过传统系统安全迭加隐私计算技术,用技术信任确保数据使用过程受控,避免数据被无端复制和滥用。
InfoQ:在您看来,隐语项目未来的发展方向和重点将是什么?
王磊:隐语未来会在以下三个方向持续进行建设。1)能力持续完善。在当前主流的隐私计算技术路线上持续进行探索和突破,并将能力沉淀在隐语框架上,赋能更多的行业。2)生态持续建设。成功的开源项目离不开广泛的生态,隐语社区在开放标准,社区 SIG,开发者共建等方面也会持续投入,希望能形成围绕隐语的广泛的开源生态。3)场景持续探索。以终为始,隐语开源的初心就是希望通过开源和技术共建,能够赋能国家的数据要素市场化的宏伟战略,未来也会在数据要素的场景上持续进行探索,希望能为更多有价值有意义的场景进行赋能。
InfoQ:基于您的专业经验,您对于金融行业在数据隐私保护方面有哪些特别的建议或警示?
王磊:其实金融在数据隐私保护方面属于相对先行的行业了,于金融机构而言,他们在业务运营中过程中已经沉淀了相当多高质量、高价值数据可以被挖掘,但是仅立足于自身的数据也是不够的,往往需要通过建立更加开放的金融生态,最大化发挥跨域数据要素价值。那在这个过程中,金融机构势必需要关注如何在保护用户隐私和数据安全的前提下,让数据要素实现安全合规的流通。譬如联合风控就是隐私计算应用在金融行业的一个典型场景,并且隐语也已经有了相关落地。在某个实际应用案例中,两家银行通过蚂蚁风洞多方安全计算平台,基于隐私计算框架“隐语”进行了多方安全联合建模,针对贷前 A 卡、贷中 B 卡分别进行了建模,与单一机构提供的数据源建模效果相比,双方联合建模的模型 KS 大大提升,成效显著。
嘉宾介绍:
王磊博士蚂蚁集团隐私计算部隐语总经理、隐语开源框架负责人
浙江大学计算机博士,2022 年《麻省理工科技评论》中国隐私计算科技创新人物。多年来牵头并主导隐私计算框架“隐语 (SecretFlow)”的一系列研发创新、开源共建及产业落地应用。拥有海内外隐私计算相关授权专利 41 项,带领团队于 AAAI、NeurlPS、KDD、USENIX ATC、S&P 等国际顶会/期刊发表论文 20 余篇,主导和参与制定国际/国家/行业/团体标准 11 项。
活动推荐:11 月 19-20 日,首届 FCon 全球金融科技大会将落地上海,届时,王磊老师也会到场与大家进行交流。由王磊老师与 InfoQ 联合策划的【数据要素流通与数据合规】专题,邀请了多位大咖进行演讲分享,期待你可以从他们的交流中获得启迪。
扫码或点击「阅读原文」可查看全部演讲专题,咨询购票请联系:17310043226(微信同手机号)。
评论