抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

一个通用的数据中台架构应该如何构建?

2020 年 1 月 11 日

一个通用的数据中台架构应该如何构建?

数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用。


下图为数据中台总体架构图,数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系。数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成本更低。通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。



数据中台总体架构图


数据汇聚

数据汇聚是数据中台数据接入的入口。数据中台本身几乎不产生数据,所有数据来自于业务系统、日志、文件、网络等,这些数据分散在不同的网络环境和存储平台中,难以利用,很难产生业务价值。数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据能够方便地采集到数据中台进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。


数据开发

通过数据汇聚模块汇聚到中台的数据,没有经过什么处理,基本是按照数据的原始状态堆砌在一起的,这样业务还是很难使用。数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。数据开发模块主要是面向开发、分析人员,提供离线、实时、算法开发工具以及任务的管理、代码发布、运维、监控、告警等一些列集成工具,方便使用,提升效率。


数据资产体系

有了数据汇聚、数据开发模块,中台已经具备传统数仓平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据资产体系。之前说数据资产体系是中台的血肉,开发、管理、使用的都是数据。大数据时代,数据量大,增长快,业务对数据的依赖也会越来越高,必须考虑数据的一致性和可复用性,垂直烟囱式的数据和数据服务的建设方式注定不能长久存在。不同的企业因业务不同导致数据不同,数据建设的内容也是不同的,但是建设方法可以相似,数据要统一建设,笔者建议数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。


数据资产管理

通过数据资产体系建立起来的数据资产还是一套偏技术的数据体系,业务人员比较难理解。资产管理是以企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控),数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。


数据服务体系

前面利用数据汇聚、数据开发建设企业数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。企业的数据服务是千变万化的,中台产品可以带有一些标准服务,但是很难满足企业的服务诉求,大部分服务还是需要通过中台的能力快速定制。数据中台的服务模块并没有自带很多服务,而是提供快速的服务生成能力以及服务的管控、鉴权、计量等功能。


运营体系和安全体系

通过前面的数据汇聚、数据开发、数据资产、资产管理、数据服务,已经完成了整个数据中台的搭建和建设,也已经在业务中发挥一定的价值。运营体系和安全体系是数据中台得以健康、持续运转的基础,如果没有它们,数据中台很可能像个一般项目一样,一期搭建起平台、建设部分数据、尝试一两个应用场景之后而止步,无法正常地持续运营,不能持续发挥数据应用价值。这也就完全达不到建设数据中台的目标。


以上内容摘自机械工业出版社华章公司出版的《数据中台:让数据用起来》一书,经出版方授权发布。


2020 年 1 月 11 日 07:0013462

评论

发布
暂无评论
发现更多内容

Java实战:教你如何进行数据库分库分表

华为云开发者社区

Java 数据库 分布式 分库 分表

如何实现支持百亿级文件的分布式文件存储

焱融科技

云计算 云原生 高性能 分布式存储 海量存储

架构实战营模块 3 课后作业

hello

架构师实战营

Recommending movies: retrieval

毛显新

tensorflow 推荐系统

没怎么写过 Java 的遗憾

escray

极客时间 学习笔记 朱赟的技术管理课 7月日更

【入门必读】《TcaplusDB数据库常见问题解决及诊断技巧集锦-数据库使用类-2》

TcaplusDB

nosql 腾讯 Data TcaplusDB

从源码角度详解Java的Callable接口

华为云开发者社区

Java ide jdk Callable Callable接口

TensorFlow 2 quickstart for experts

毛显新

tensorflow

LeetCode题解:456. 132 模式,n平方暴力,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

淘宝一面:说一下 Spring Boot 自动装配原理呗?

java小李

java 14 sping Java 面试

根据译文片段预测翻译作者

毛显新

tensorflow

机器学习- 吴恩达Andrew Ng Coursera学习总结合集 John 易筋 ARTS 打卡 Week 57

John(易筋)

ARTS 打卡计划

手写基数排序算法

实力程序员

C语言 排序算法 程序员成长 实力程序员

行云创新完成B轮融资,阿里云独家投资

云原生开发者社区

阿里云 云原生 投资

面试题:JVM在Java堆中对对象的创建、内存结构、访问方式

java小李

java 14 sping

怎么在Guitar Pro乐谱中加入哇音

懒得勤快

“运愁维卧”,决胜千里 | TcaplusDB7.24运维日致敬每一位运维人

TcaplusDB

nosql 腾讯 TcaplusDB

聊聊百度搜索背后的故事

程序员鱼皮

Java 搜索引擎 数据结构 算法 后端

拨云开雾!阿里面试官力荐Java开发必看的操作系统底层原理PDF

Java架构追梦

Java 阿里巴巴 架构 面试 操作系统

程序人生:做了6年Java开发,海投28家简历被拒,该何去何从?

Crud的程序员

Java spring 程序员 架构 编程语言

汽车燃料效率预测

毛显新

tensorflow

对象存储手把手教三 | 数据分段上传

QingStor分布式存储

对象存储 分布式存储 数据传输

我花了 24 天使用 C++ 从零实现了一个解释器

lmymirror

interpreter compiler

带你了解弯曲文本检测算法的两种思路:区域重组和像素分割

华为云开发者社区

文字 目标检测算法 文本检测 区域重组 像素分割

《TcaplusDB数据库常见问题解决及诊断技巧集锦-数据库使用类-3》

tcaplus

TcaplusDB

stack overflow 问题分类

毛显新

tensorflow

DAPP智能合约开发|智能合约搭建

橙子区块链l53o56oloo3

区块链 智能合约 DAPP智能合约交易系统开发 DAPP系统开发

云图说|云上应用监控神器——应用性能监控APM2.0

华为云开发者社区

APM 华为云 云图说 应用性能管理 应用监控

架构实战营模块四作业

老猎人

架构实战营

Java中高级核心知识整理,这份文档曾帮我拿下BATJ等offer

Crud的程序员

Java spring 架构 编程语言

架构实战营-模块三

Cingk

Study Go: From Zero to Hero

Study Go: From Zero to Hero

一个通用的数据中台架构应该如何构建?-InfoQ