数据中台被誉为是大数据的下一站,由阿里兴起,核心思想是数据共享,并且在今年它再度成为了人们谈论的焦点。很多人在揣度腾讯会不会有数据中台战略,曾有媒体曝出腾讯也提出了要建立数据中台。但是马化腾(Pony)这样回复了大家的质疑:“对于外界的‘数据中台论’,我们平台的数据远比其他平台更加具有用户个人隐私性,因此我们反而要强调的是如何加强数据保护而不是打通数据和唯算法论”,“通信、社交、用户行为不能打通,这会造成灾难性的后果。”
今年 9 月 30 日,腾讯公布了最新的组织架构调整结果,七大事业群变为六大事业群,ToB 成关键词。腾讯一向被定位为一家 ToC 的大型企业,人们质疑这样一家企业能如何去 l 做 ToB 的业务,会不会是口头宣传或更多的是试探性的行动。
InfoQ 恰巧注意到了腾讯云即将推出的一款新产品:神盾沙箱。它通过腾讯云将内部积累的平台能力产品化为 ToB 企业服务,希望作为中立方提供一个数据交叉计算的安全环境,在保证各方数据安全前提下,让数据创造出更多价值。我们采访了腾讯数据平台中心负责人雷小平,希望能从他的回答中了解这个全新的安全计算平台的价值所在。
雷小平,腾讯 SNG 运营部数据平台中心负责人,2008 年毕业于华中科技大学,在大数据处理,推荐系统等领域拥有多年实践经验;负责过 SNG 第一款大数据应用产品“QQ 圈子”的计算系统落地,以及腾讯高可用分布式实时计算系统 R2 的架构设计和部分核心模块的研发;带领神盾推荐系统团队多次获得公司级各种奖项。
InfoQ:您能介绍下自己的经历,以及您负责的团队吗?
雷小平:我是 2010 年加入腾讯的,在 2011 年时加入“QQ 圈子”这个项目,逐步转向大数据方向,搭建过 QQ 数据中心的第一个 Hadoop 集群。从 12 年左右开始从事推荐系统相关工作,当时是跟业务深入合作定制化推荐系统,后来随着需求越来越旺盛开始考虑将系统平台化,并主导建设了神盾通用开放推荐系统。
最近几年比较关注数据平台商业化能力,希望能通过数据沙箱的模式来解决 ToB 用户在数据应用方面的一些痛点。
团队有两部分职责,一部分职责是关于 SNG 的数据仓库建设以及数据应用。罗盘产品满足数据仓库和报表相关的应用,每天的数据量超过 2 万亿条,每天推送报表超过 3000 张;神盾推荐正在服务的产品近 30 款,每天的调用量近 300 亿,团队因此两次获得公司级卓越项目奖励。
另一部分职责是通过腾讯云将内部积累的平台能力产品化为 ToB 企业服务,比如神盾数据沙箱,希望从网络环境,密码学,模型等各维度出发提供一个进行多方数据的安全计算的平台,提升数据价值并保护数据安全。
关于神盾:
InfoQ:神盾现在的一些数据情况如何?比如之前用户画像数据来源为 10 多亿用户,千亿用户关系链。服务产品数量。神盾日推荐请求次数。这些是否有大的改变?
雷小平:神盾推荐的目标是帮助产品降低推荐接入和迭代的门槛,长尾产品主打通用,中头部主打开放。虽然团队并没产品应用量作为第一目标,不过 API 调用一直都是持续上升,最新的数据是每日调用接近 300 亿次。
InfoQ:神盾设计的时候的理念是重系统架构轻推荐策略,那么在重系统架构上,您能总结下关键的几点吗?
雷小平:从通用开放的理念出发,主要是三个层面的工作:
一是易用性,将推荐系统接入的流程抽象成数据上报,特征构造,模型训练,模型上线和效果评估 5 个步骤,通过页面化操作,并将大部分流程自动化,尽量降低用户使用门槛;
二是性能和效率,从离线到预测做了很多数据缓存以及分布式计算的架构优化;
三是接口开放,针对用户对自定义模型,自定义预测逻辑以及模型组合等个性化需求,开放出相应接口给到用户。
InfoQ:神盾是否需要从其他业务部门调用数据?如 TEG、WXG?是否给其他部门的产品提供推荐?
雷小平:神盾推荐服务于全公司,所以会有其它 BG 的产品接入神盾。所有接入神盾的场景默认能使用该场景本身积累的数据,若要使用其他场景数据则需要数据拥有方的授权才能开放。
关于隐私安全:
InfoQ:大数据安全包含三个方面:大数据平台安全、数据安全和个人信息安全,那么腾讯神盾沙箱是兼顾还是侧重于哪个方面?
雷小平:神盾数据沙箱是团队在腾讯云即将推出的一款新产品。与神盾推荐服务于公司内部的推荐场景不一样,它主要服务于 ToB 企业。
在 ToB 行业中,有一些企业有很多商业活动比如营销等需要数据决策,但企业本身可能没有足够的数据;而另一些企业则拥有一些前者需要的数据,但他们不希望这些数据被直接暴露到公司外;此外,还有一些专业提供解决方案的企业或团队,有非常棒的计算能力,但是本身数据能力比较缺乏,就更加的希望有一个能够解决数据短板问题的计算平台。
神盾数据沙箱正是基于这样的场景,希望作为中立方提供一个数据交叉计算的安全环境,在保证各方数据安全前提下,让数据创造出更多价值。
InfoQ:“安全计算”的概念是什么?“安全计算”的重要性显示在哪里?
雷小平:我们所指的“安全计算”实际上是指“安全多方计算”(SMC),它是指解决一组互相不信任的参与方之间,相互协同计算且保护各方的隐私被泄露的问题。安全多方计算的平台需要保证各个输入方的独立性和计算的正确性。
可以说,数据决定了计算收益的天花板的高度,各个数据拥有方对数据的管控强度都是不可或缺的,所以说各个数据方之间必然是互不信任的。SMC 恰恰是为了保护各个输入方的数据不泄露的条件下完成协同计算,对各个输入方的隐私起到了关键性的保护作用,进而让各个输入方没有顾忌的去无限接近更高的天花板。
InfoQ:在您的演讲介绍中,提到”数据交易“,那么神盾的数据需要”交易“数据吗?如何进行”数据交易“?
雷小平:目前,神盾的数据是采用“授权”的机制,但是后续可能会产生“交易”的行为。为了保护数据的绝对安全,神盾数据沙箱内部是不存放输入方的任何数据的,仅存放了数据的元数据信息,数据是否可以输入沙箱完全是由输入方自己控制的。
无论是“授权”还是“交易”都是由计算任务的调起方请求所使用数据的权限,或者说“购买”数据。当数据拥有方同意后,还需要数据方提供数据到数据沙箱,才能算是完成“交易”的过程。
InfoQ:数据大集中整合后的存在什么样的数据安全问题?
雷小平:将所有数据集中在一起,尽管有数据加密,也最容易出现两类问题,一类是某一方在自己数据中携带标志信息,经过数据融合来破解其他未加密、加密策略简单的数据信息,例如性别信息;另一类则是通过差分攻击等手段,通过多次融合破解密文信息,例如年龄信息。这种安全问题一般无法由单纯的安全技术解决,反而更依赖整个平台的安全管控能力来杜绝这种攻击。
InfoQ:目前通用的数据安全保护技术有哪些?腾讯沙箱的技术逻辑是什么样的?有哪些独创手段?
雷小平:数据安全保护技术主要包括三个方面:一是对数据的安全处理,主要是各种数据脱敏策略(包括可逆与不可逆脱敏)、数据加密策略(各种加密算法);二是计算环境安全,包括网络防火墙和网络安全隔离的技术、代码插桩隔离非法调用等技术;三是非常适合于云计算场景的混淆电路、同态加密等的复杂安全解决策略(完全的同态加密通用性还有待研究)。
由于神盾沙箱内部不会存放用户的数据,并且需要用户完全可控其数据环境,所以神盾沙箱需要在所有的计算任务之前附加一个拉取用户数据并做交叉加密的任务。从调起计算任务到执行交叉加密,这个过程有多次鉴权,而第一次鉴权则会在没有权限时调用数据交易的入口。因此可以在流程上将数据交易融入到数据计算的过程中。
腾讯数据沙箱具有以下独创手段:(1)对匹配字段采用了自研的具有可交换性的加密算法,各方拥有己方密钥,可以在保护字段信息的情况下保证数据融合;(2)数据沙箱专注于数据的安全计算,不保存用户密文、密钥数据,达到沙箱内部环境完全透明、沙箱数据环境用户完全可控的目的;(3)密钥统一使用 KMS 管理,密钥本身也需要解密,并且支持用户随时控制自己密钥密文的有效性。
InfoQ:除技术手段外,在管理上做了哪些举措?
雷小平:除了一些安全技术手段外,神盾沙箱在整个架构设计和流程管理上也充分考虑了安全计算的问题。首先是环境的隔离,不同于统一的数据管理平台,数据沙箱将计算环境和数据环境分离,数据环境由沙箱提供,并且每个数据输入方有单独隔离的云上数据环境,实际操作完全由用户可控。其次是数据的权限管理透入到安全计算的每个流程中,并且会实时反馈。第三,是密钥的管理方法,同样交由用户可控。
活动推荐
雷小平老师也将在 12 月 7 日北京 ArchSummit 全球架构师峰会上演讲,介绍《数据安全计算的技术架构》内容。
数据基础平台建设,数据安全计算,和数据智能处理都是大数据领域较为关键的技术点,本周五在北京国际会议中心举办的 ArchSummit 全球架构师峰会上,我们邀请了头条、Uber、阿里、腾讯、美团、京东等企业来分享他们的经验和技术选型方案 https://bj2018.archsummit.com/schedule
会议报名最后 2 天,感兴趣可以联系票务灰灰 17326843116
评论 1 条评论