数据已经成为当今社会不可或缺的生产要素。据IDC统计,2018 年,全球总共创建、捕获、复制和消费了 33 ZB (即 33 万亿千兆字节)的数据量,2020 年增长到了 59ZB,预计到 2025 年将达到 175ZB。随着数据越来越多,人们越来越重视数据安全、隐私保护等问题,隐私计算因此得到了很大的关注。
根据 KPMG《隐私计算行业研究报告》,国内隐私计算市场规模将快速发展,三年后技术服务营收有望触达 100-200 亿人民币的空间,甚至将撬动千亿级的数据平台运营收入空间。那当前隐私计算发展情况如何,未来又有哪些机会呢?
数据合作带来更多收益
数据孤岛导致沉睡的数据资产无法流通,难以实现商业价值。在星云Clustar CEO 陈沫看来,数据合作带来的收益远大于要为此付出的成本,安全的数据合作可以带来更多收益。隐私计算就是要连接孤岛,产生“1+1>2”的效果。
隐私计算目前落地应用相对成熟的领域是金融。金融行业是数据价值转化率最高、并且对隐私要求也最高的行业之一。相对于其他行业,金融尤其是银行业,在数据安全和隐私问题上考虑得要更早些。
过去十年,我国积累的数据百分之七八十都在互联网。相比之下,银行拥有的数据维度是比较少的,这导致银行做营销时难以精准地找到匹配人群。互联网金融的兴起与其拥有的海量数据也不无关系。而具有丰富的风控标签数据的第三方机构提供数据样本的审批周期较长、模型效果难优化等问题。
星云 Clustar 创始人陈凯将目前银行在数据上面临的主要问题归纳为以下三点:
数据来源问题。之前通过第三方 SDK 获取数据的方式被禁止,数据收集方式会受影响。
同质化严重。为了合规,厂商不能直接出售明文数据,基本以提供解决方案为主,这使银行无法得知数据来源,失去了自由度和可解释性。
有严重的滞后性。用户消费习惯、财务状况等是不断变化的,这可能导致仅仅几个月前做的评估就失效了,但风控等级可能无法及时跟进这些变化。
隐私计算可以帮助银行弥补数据方面的弱势。银行通过隐私计算平台获取大量数据的计算结果,在不直接接触数据的情况下,发挥出数据价值,使其业务形态得到巨大自由度。
据陈凯举例介绍道,隐私计算技术提供商星云 Clustar 依托海量数据源为某股份制银行实现了精准、可控的闪电贷营销业务,在数据“可用不可见”的前提下,保证了银行客户的隐私和数据安全,同时优化了银行业务流程。据悉,该业务的当月营销转化率达 3.5 倍以上,联邦模型 AUC 达到 0.73,营销精准率和客户转化率均有明显提升。
隐私计算在广告投放示意图
除了精准营销,隐私计算在金融领域的场景也在不断扩展,如信贷风控、保险定价等等。而除了金融,医疗、教育、保险等行业是缺数据的,这些都是隐私计算的机会。
当然,隐私计算的价值不只体现在传统行业,互联网企业内部也可以实现价值共赢。
“比如蚂蚁和腾讯数据不通,他们不会知道彼此数据的具体价值,这表明大厂们也会有数据认知上的缺失。另外,随着市场差异化越来越大、产生的数据越来越多,大厂们在新环境下未必可以直接看见市场、理解新的业务场景。”陈沫说道。
越来越多的行业开始使用隐私计算技术进行数据保护。面对不同行业各具特色的需求,陈凯表示,不同行业的数据底座 90%以上是可以复用的。也就是说,底层的基础平台是跨行业的,但越深入行业,隐私计算平台上的应用会越需要行业的支持。
监管趋严催生更多机会
除了技术,监管也是当前隐私保护的另一个重要抓手。
2015 年,《国家安全法》正式将数据安全纳入国家安全范畴,此后相关法规一直陆陆续续出台。今年 6 月,《中华人民共和国数据安全法》正式通过,并将于今年 9 月 1 日起施行。据零壹智库统计,近 5 年来,国家、地方省市以及各行业监管部门关于数据安全、网络安全已至少颁布 52 部相关法律法规。
不仅如此,针对拥有海量数据的互联网行业数据安全整治也一直在进行。19 年底,光大银行、微店、房天下等在内的 100 款违规采集个人信息的 App 被要求下架整改,此后更是加大了整治力度。仅在今年 7 月份,国家网信办就下架了“滴滴企业版”等 25 款存在严重违法违规收集使用个人信息问题的 App、工信部将之前通报后仍未完成整改的 48 款 App 全部做了下架处理等。
在陈凯看来,行业法律法规的出台对整个隐私计算市场的冷启动有极大的帮助。所有与数据相关、但之前没有考虑到隐私的业务,都有可能成为隐私计算的市场。
“为了合规,各企业必须要采取行动,对于之前存在很多有争议的事情,企业间逐渐达成了共识,新的数据合作也随之产生。更重要的是,在行业还没有全面落地的情况下,各类法规的颁布为数据流通的底座提供了规范,这对整个行业未来长期的有序发展是非常有利的。”陈凯表示。
据陈沫介绍,隐私计算市场的机会体现在两方面:存量市场和增量市场。
存量市场的机会主要体现在对目前已经初步落地的金融、医疗、政务等领域进行深耕和拓展,在保证数据安全、数据隐私的情况下,让存量大数据变成可用大数据,充分挖掘出大数据的价值。而增量市场更大、更有开拓性,当然也更充满不可预测性,市场的期待值也更高。如今很少有产品跟数据毫无关系,无论做合规还是做增益,都蕴藏着巨大的机会。
“用隐私计算赋能行业、赋能社会,虽然听起来很大,但这却是真实存在的需求。”陈凯说道。据悉,今年星云的收入同比增长了 5 倍,其一些合作伙伴甚至实现了 10 倍速增长。陈凯透露,今年数据安全相关的企业数量可能已经增加了几十倍,除了垂直的创业企业,其他跟数据相关的企业,如大数据、安全领域的企业开始进入隐私计算行业。同时,大厂们也已经进场。
但是,机会背后也意味着挑战。如何通过技术手段达到法规规定的标准?怎样做才是合规的?这些都是隐私计算行业正在面对的问题。
“第三方数据安全技术提供商连接了数据提供方和需求方,输出符合法规的数据,可以让数据产生更大的价值,为企业赋能。但是参与数据处理、存储等,还是单纯做一个技术输出平台,这是星云目前在思考的事情。”陈凯说道。
算力制约发展
隐私计算融合了人工智能、密码学、区块链及计算芯片等一系列软硬件技术。在实践中,隐私保护要用复杂的密码学进行计算,虽然一定程度上保证了数据安全,但这背后需要付出一项很高的代价:算力。
隐私保护的底层算法可以分为两类:一类是基于密码学理论的算法,另一类是基于计算机硬件。基于密码学理论的有同态加密、秘密共享等方式,而基于硬件创建的可信环境可以让数据在独立的环境中运行,安全性更高。不过值得注意的是,可信环境的建立往往需要对硬件厂商有充分的信任,比如使用英特尔的 SGX 芯片,则意味着使用者对英特尔的充分信任。
然而无论使用上述哪种方式,在对海量数据进行加密或做随机化处理时,都需要进行大量的多方案卷积层计算,模型越复杂,需要的算力越高。
“当前的数据处理速度其实非常慢。”陈凯表示,“相比明文计算,隐私计算在现有 CPU 计算上的时间还要增加三个数量级。”
限制行业发展的不止算力,大量的数据传输对网络通讯也是很大的挑战,尤其是像秘密共享这样对通信要求很高的技术。
秘密共享是一种分布式的密码技术,有大量的重复计算和数据交互,训练模型需要不断更新迭代。大量的通信需求、大量容器的交互等都导致应用秘密共享的成本很高,只能支撑像调研这样的小范围应用,难以在整个互联网上实现。
算力和通信问题制约了隐私计算行业的发展。
为解决算力问题,星云当前给出的解决方案是融合 CPU/GPU/FPGA 服务器、FATE 和 SDN,推出了多解决方案的智能一体机,通过硬件设计提升单点算力,加速数据加密、解密以及密态计算速度。官方数据显示,其密态计算效率提升 400%、降低延迟 300%、降低功耗了 70%。
“我们应该知道每个技术擅长什么、不擅长什么,基于这个认知再做技术选型。”陈凯说道,“随着业界对加密技术、芯片等研究的深入,还有量子计算机发展带来的算力提升,隐私计算的很多问题都会被解决。当然,新的问题也会随之产生,但那是在很久之后了。”
评论