嘉宾 | 潘臻轩(花名:泰初)
编辑 | 赵钰莹
流图计算,一个基础软件领域攻坚难度极高的分支。行业首个工业级流式图计算引擎 TuGraph-Analytics,与目前世界范围内有记录的、最快的图数据库开源项目 TuGraph DB 来自于一家中国企业,这不仅仅解决了国产基础软件领域的一大难题,健全了开源生态,更重要的是向全球展示了中国的开源力量。
Linked Data Benchmark Council(LDBC,关联数据基准测评委员会)是全球公认的图数据库领域基准指南制定者与评测机构,与 TPC 并称为国际数据库行业两大权威技术组织。在这样一个全球权威的榜单上,蚂蚁集团的 TuGraph 项目截至目前已多次高居榜首,并不断在打破由自己创造的世界纪录。
长久以来,中国企业在基础软件领域的攻坚进程不尽如人意,TuGraph 项目让我们看到了中国企业在图计算方面的巨大潜力。作为中国最早研究图计算技术的企业之一,在工业界尚无成熟系统和典型落地场景时蚂蚁集团就已经投入研发,并在如今构建起了世界规模领先的图计算集群,打造了一流的大规模图计算系统 TuGraph。
本次,蚂蚁集团宣布将图计算系统中的流图计算引擎 TuGraph-Analytics 正式开源。结合蚂蚁图计算领域其他项目的优异表现,该引擎又将对开源领域及产业界带来哪些价值?流图计算领域“出走半生,归来仍是素人”,到底是技术要求太高还是场景需求不大?AIGC 的兴起对该领域的未来发展又会带来哪些影响?
本文,InfoQ 采访到了蚂蚁集团流式图计算团队负责人潘臻轩(花名:泰初),共同就上述问题展开探讨。
中国开源生态日益健全,场景从互联网向金融等延伸
最近几年,随着国际上开源生态的不断壮大,服务于开源事业的机构日益增多。基金会和企业日益成为开源发展中最重要的构成部分。海外开源商业闭环已经得到验证,头部科技企业纷纷通过资源、资本、组织等形式赋能开源,这也在很大程度上加速了中国开源赋能环的发育和成长,国内基础软件领域的开源版图得以不断完善。
注:图片来自 InfoQ 研究中心《中国开源发展研究分析 2022》
与此同时,InfoQ 研究中心也观察到:开源项目的落地场景已经从原来的互联网领域向金融、工业等领域转移,这背后是因为中国市场数字化浪潮的不断涌动,各领域的数字化升级被提上日程,开源的价值进一步被放大。在这个过程中,金融、工业等领域暴露出的需求进一步反哺了开源项目社区发展,这是一个良性循环。
具体到流图计算领域,以金融场景为例,日益增长的用户规模和逐渐升级的攻击手段,让信贷风控、反洗钱、反欺诈、资金追踪的难度越来越高,而图技术因为可以通过拓展风险特征维度来提升如上关键环节的风险防范能力而广受关注。根据 Gartner 的预测,到 2025 年,图技术将应用于 80% 的数据和分析创新,能够促进企业的快速决策,这也表明未来将会有越来越多与数据相关的领域和企业应用图技术解决问题。
那么,流图计算技术到底是如何解决问题的?这样一个很多人印象中的“小众”领域为何会被 Gartner 如此看好?
“小众”的流图计算,如今的价值已被产业看见
事实上,流图计算是流式计算和图数据模型的交叉领域。虽然很多人对这个名词感到陌生,但对流式计算和图计算应该有所耳闻。
流,指的是流式动态变化的数据流,一般动态的数据流有实时的日志流,或者数据库的变化日志。流式计算最早源于 80 年代学术圈关于流式实时计算的研究,随着大数据的兴起,流计算逐渐演进成大数据的一个独立分支,基于流式计算可以很好地提升数据计算的实效性,能够基于实时的数据进行决策分析,业内比较熟知的流式计算引擎,比如 Flink。
图论最早起源于哥尼斯堡的七桥问题。数据结构的图由顶点的集合和边的集合构成。在我们现实生活当中,图无处不在,比如资金网络、关系网络等。
注:哥尼斯堡的七桥问题
随着大数据的兴起,Google 推出了大规模图计算系统 Pregel, 并基于此进行 PageRank 算法的计算,来获取网页权重。
流图计算继承了流式计算和图计算的优点,一方面它基于流式实时的数据进行处理,另一方面它构建在实时数据之上构建图模型进行计算,但同时技术挑战也更高了。
采访中,泰初表示,根据蚂蚁集团的应用实践和来自金融风控等多个场景的应用反馈,流图计算的价值在蚂蚁集团内部得到了广泛的认可,但因为其有一定的技术门槛,并需要更加复合型的人才,导致今天看起来似乎依旧“小众”,蚂蚁集团希望通过开源的方式降低门槛,让生态更加繁荣,让流图计算技术更加普惠。
注:蚂蚁自研的工业级流式图计算引擎 TuGraph Analytics
经过六年的技术积累、半年多的准备和内部开源技术委员会评审,TuGraph-Analytics 最终被蚂蚁集团定为 A 级项目(该级别意味着公司将会投入众多资源支持项目的持续运营)正式开源。
注:TuGraph-Analytics 的开源路线图
很多人因为看见,所以相信。如今,蚂蚁集团想办法让更多人不仅能看见流图计算的价值,还能实际感受到。根据泰初的介绍,项目开源后会给出大量文档,后期也会做很多公开课等运营动作。目前,开发者根据案例十分钟就可以运行一个简单的 demo,初步体会该项目的价值。
根据团队的经验,假定资源同等,TuGraph-Analytics 相较于 Spark GraphX 等传统方式可以将风控时效性从小时级降到秒级。对于数据模型天然适合图模型,同时希望能够更快看到图计算的价值的应用,流图计算引擎 TuGraph-Analytics 是更加合适的选择。
开源地址:https://github.com/TuGraph-family/tugraph-analytics
扛过双 11 大考,落地百余场景,TuGraph-Analytics 筹划已久
对外界来说,开源只是一个动作。但对蚂蚁集团流图计算团队来说,这是不断踩坑、不断进化的结果。
蚂蚁集团对流图计算的探索大致可以分为三个阶段:创业阶段、规模落地、持续优化。
在创业阶段,反套现成为团队遇到的第一个挑战。在花呗反套现场景中,并不是每一笔交易或回款行为都需要进行套现行为的识别,需要先进行一定的规则处理。比如,基于实时统计交易的笔数或者回款金额,在满足一定的条件后才开始进行子图的迭代计算。最后,基于图的迭代计算结果,在进行后续数据链路的处理后再提供给在线使用。因此,一个场景在完整的计算链路中,需要流计算和图计算两种计算范式的融合计算。
当时的流图计算团队仅仅只有两名成员,探索了一年多的时间才将该技术在内部初步落地。“虽然公司在这个过程中没有给我们太多压力,这也特别感谢蚂蚁对前沿技术探索的接受度和包容度,但其实个人压力是非常大的。”
在规模落地阶段,团队虽然在不断壮大,但是也迎来了一场“技术大考”。2018 年的双 11,流图计算做到了在大促极端流量高峰情况下,动态识别超过六度关系链(隐蔽性强)的异常资金风险,这一风控能力在当时的业界非常领先。
“那时,我们从 6、7 月份就开始和业务同学一起闭关筹备双 11,内部做了几轮流量压测,包括极端情况下的解决方案全部讨论完毕才确定推到双 11。”
在那以后,越来越多的业务方希望通过部署流图计算技术解决来问题。此时,团队又迎来了难题:怎么把门槛降得再低一些,让业务方可以最低成本用起来。团队开始和中台联动,通过支持特定的中台(比如风控中台、知识图谱等)快速覆盖一类场景用户,从而让更多的业务用起流图计算。
当解决这些问题之后,蚂蚁流图计算踏入第三个阶段——持续优化。2020 年前后,随着图在蚂蚁应用的越来越广,体系化的建设给团队带来了很大的挑战。于是他们将流图的能力从两边延伸提供了离在线一体化的能力,使得用户可以基于一套 DSL 支持基于离线的数据进行实验,并在随后的时间内针对计算框架、存储引擎等做了持续性优化,这些工作未来也都将通过开源的方式贡献给社区。
目前,流图计算在蚂蚁内部及产业界得到广泛应用,比如金融风控 (支付风控、信贷风控、基础安全风控)、知识图谱 (商户图谱、资金图谱、企业图谱)、会员社交 (新春五福、亲密支付、会员增长) 以及数据应用 (资金基线、数据血缘、归因分析) 等百余场景。
基于流式动态图构建的资金云图项目实现了长周期万度资金流转分析,且支持秒级还原资金路径,成功解决了金融场景下因资金链路复杂,导致风险分析难、识别率低、时效性差等业界难题。
发展至今,蚂蚁集团已经形成了完备的图计算版图,彼此能力互补。比如 TuGraph-DB 作为图数据库,主要应用场景是数据管理和查询。TuGraph-Analytics 作为流式图计算引擎,偏重于流式实时图的分析和计算。在解决业务问题时,二者一般联动运行,比如基于 TuGraph-Analytics 进行实时数据分析,并将分析之后的数据写回到 TuGraph-DB,提供查询服务。
注:蚂蚁图计算平台 TuGraph 已达世界领先水平
不难看出,开源并非一时兴起,而是基于丰富的技术积累和场景磨练。在看到价值之后,团队第一时间就选择开源,让 TuGraph-Analytics 快速赋能整个行业,从而更好地助力整个行业的数字化升级。
从产业视角来看,当前流图计算还处于起步阶段。TuGraph-Analytics 这类项目的开源,可以更好地让产业各方参与到流图计算方向的建设,同时也会出现更多解决方案推动整个行业更好地发挥流图计算的价值。
AIGC 带来利好,流图计算领域将越来越热闹
AIGC 的火爆让每一个领域的从业者都开始重新评估自身所从事的工作会发生哪些变化。这样的技术革新,流图计算团队同样关注到了。采访中,泰初表示初步判断这对流图计算领域是利好的,可以进一步降低用户的交互门槛。未来,用户有望通过自然语言的方式直接获取想要的信息,团队围绕此也做了初步规划。即便不谈 AIGC,流图计算领域未来也会越来越热闹,因为图本身能够解决更多复杂问题。
从标准化层面来看,该领域的标准正在被逐步建立,比如图的查询语言之前一直没有相关标准,但最近两年已经有相关组织在牵头做这件事情,其他方面也是如此。随着技术的成熟和标准的建立,产业实践路径渐趋清晰。我们有理由相信,流图计算领域未来可期。
嘉宾介绍
潘臻轩,蚂蚁集团资深技术专家,现蚂蚁流式图计算团队负责人。2012 年加入阿里集团数据平台,2016 年加入蚂蚁集团数据技术部,经历了阿里和蚂蚁实时计算从 0 到 1 的演进,从 2017 年底开始负责流式图系统和团队的构建,从 0 到 1 打造了蚂蚁的流式图系统,对实时计算和图计算以及上层的应用场景有深入的理解。
相关阅读:
《坐拥多个 TOP 级开源项目,不搞“竞争性开源”,蚂蚁在玩一种很新的开源》
评论