导读:随着近些年数据中台在市场的火热,宜信也基于 DBus,Moonbox,Wormhole,Davinci 四大开源组件完全自主研发了数据中台。 宜信数据中台不仅提供了高度便捷的数据开发,探索,模型搭建,数据资产共享等功能。还在数据安全,数据清洗,数据加密等方面保证数据的安全性。 不仅兼容了过往传统数仓的批量数据处理,还创新性的加入了流式实时计算等功能,通过对流式计算的高度抽象,使用户通过使用最简单标准的 SQL 即可完成丰富经验的大数据工程师完成的流式作业任务研发工作,大大降低了流式作业的开发门槛。 本次分享我们就结合目前宜信的业务,说说数据中台的主要研发逻辑和具体功能。
分享大纲:
1、中台定位
2、数据中台价值
3、数据中台模块架构
4、数据中台核心功能
5、解决核心问题概览
PPT 下载:链接: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密码: 99uh
分享实录
一、数据中台定位
1.1 ADX 整体简介-中台定位
首先对中台的服务范围说明:
企业级:针对是整个企业的所有业务部门,横向贯穿整个业务线的数据,纵向贯穿整个数据生命周期,从最开始的数据采集(DB,日志,消息,文件),入湖,标准化,开发(批量作业,流式作业)维度表,最后到数据服务和数据应用。
复用:复用的范围包括,能力的复用,逻辑的复用,数据资产的复用,算法的复用。
能力:对平台能力进行抽象,对于不同平台的对能力的抽象,业务平台(流程控制,管理,审批,权限「等级,继承」,调度),数据平台(批量,流式,UDF,UDAF,数据质量,血缘分析,数据地图,调度,数据资产管理,权限,数据服务)。
分横向和纵向两个方面:
横向划分
大数据基础集群:更贴近硬件的平台,负责提供稳定及高可用的计算运行环境,及安全的数据存储环境
HDFS-数据湖的基础存储,存放表每天的快照,和增量数据。
KUDU-最新快照,用于即席查询,数据服务,流式数据快照。
ClickHouse-Clickhouse 做 DW 和 DM 层的存储。
数据中台 :对数据能力的抽象 ,数据的流式和批量加工,数据资产的发布,数据统一落湖,质量管理检测,脱敏加密,统一数据出口能力。
业务前台:对业务系统,业务线数据团队,提供各种不同的数据能力。使其能在中台上沉淀企业级数据资产。
纵向划分
数据管理委员会:对数据资产的质量认证,数据使用权限的授权,数据治理项目推动实施。
数据运营团队:客户标签,用户画像,产品画像,智能推荐,精细化管理。
数据安全团队:数据脱敏加密,安全密钥管控,数据风险的控制。
二、数据中台价值
2.1 数据中台价值
△快:
传统数仓定制化报表,排期周期长,响应需求慢,重复开发工作比较多。T+1 的数据失效也满足不了现在互联网业务场景下对数据实时处理能力的需求。对中台平台自主化开发,可以提升数据加工能力沉淀,以及实时数据处理能力。
△准:
数据获取准确性,通过统一数据抽取平台对数据实时抽取,同时完成标准化,入湖,脱敏发布。通过元数据和血缘分析准确获取数据地图。通过模型管理和统一模型口径。
△省:
节省人力成本,大大降低大数据处理的技术门槛,使用户能够快速上手。节省需求排期时间,使数据能更快的响应业务需求。节省硬件资源,通过对平台资源的整合,规划,节省硬件使用维护成本。
2.2 数据总线平台 DBus
DBus 面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据,对各个 IT 系统在业务流程中产生的数据进行汇集,并统一处理转换成通过 JSON 描述的 UMS 格式,提供给不同下游客户订阅和消费。DBus 可充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。目前 dbus 支持的数据源包括 mysql,Orale db2,Mongo,日志系统,文件系统等。
2.3 流式处理平台 Wormhole
Wormhole 面向大数据项目开发和管理运维人员,致力于提供数据流式处理解决方案。平台专注于简化和统一开发管理流程,提供可视化的操作界面,基于配置和 SQL 的业务开发方式,屏蔽底层技术实现细节,极大降低了开发门槛,使得大数据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。
2.4 虚拟混算服务平台 Moonbox
Moonbox 面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可作为数据应用底层数据查询计算统一入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需通过统一 SQL 服务调用和 Moonbox 交互,即可透明屏蔽异构数据系统异构交互方式,轻松实现跨异构数据系统透明混算。
2.4 数据化可视应用平台 Davinci
Davinci 面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
三、数据中台模块架构
3.1 数据中台模块架构
宜信中台整体底层采用 wormhole+dbus+moonbox 作为数据采集,加工,处理的底层引擎,通过服务的形式形成底层接口层提供数据实时处理的基础能力,在通过对接口层的整合,形成数据加工处理的子服务,使数据中台的后台服务完成调度,鉴权,认证,监控,告警。通过对不同组件层的能力整合完成了各项数据能力批量作业编排,调度,补数,手动重启,流式数据逻辑加工(source,lookup,transformation,union) flow 在 stream 内的物理执行顺序,流式数据落湖,流式数据回溯。
3.2 功能目录
菜单划分
管理类(审批,库表,团队,规则,密钥,监控,预警,元数据);
功能类(批量作业,流式作业,即席查询,数据发布);
数据应用类(血缘分析,数据地图,数据模型,数据质量)。
四、解决核心问题概览
4.1 批量作业处理
专注于作业编辑编排,是数据项目的 IDE,具体执行提交到对应中间件工具上执行。
简单一致的 IDE 体验
批量作业、流式作业拖拽式编排
批量作业、流式作业 SQL 式开发
全局唯一表名,屏蔽异构数据系统
开发期可验证 SQL 和数据正确性
4.2 流式作业处理
主要解决数据处理流程中错综复杂的依赖关系。
后面的沙龙我们将 详细的介绍宜信数据中台的批量处理和流式处理功能 请大家持续关注我们。
作者介绍:
裴国强
宜信科技中心数据中台解决方案架构师
本文转载自公众号宜信技术学院(ID:CE_TECH)。
原文链接:
https://mp.weixin.qq.com/s/-kOVl-tTED8284tvdOXFRw
评论