低代码到底是不是行业毒瘤?一线大厂怎么做的?戳此了解>>> 了解详情
写点什么

数据治理的大方向是 Database Mesh?先把数据之间的血缘关系搞明白,咱再吹行吗?

2020 年 4 月 15 日

数据治理的大方向是Database Mesh?先把数据之间的血缘关系搞明白,咱再吹行吗?

随着服务化进程的加速,越来越多的服务化横向拆分、数据库垂直拆分,如何行之有效的管理,成为了架构师(或技术经理)为之头痛的头等大事。


早在 2017 年,我曾写过一篇 #把越来越多的服务治理好才是当务之急,服务微不微可以慢慢来 # 的文章,使用略带吐槽的口吻,将我们在服务治理上的问题、挑战及解决手段一一的罗列。而在今年,一篇 #Service Mesh 是大方向,那 Database Mesh 呢?# 的文章在圈内引起了热议,文中提到了技术治理的另一种视角 —— 数据治理。


在我看来,想将杂乱无章的数据治理的仅仅有条,无论从成本收益,还是从技术投入来说,都比服务治理显得更麻烦、更复杂,但随着服务治理工作的深入,这却又是一项不得不翻越的障碍。


#在启动数据治理之前,先把数据之间的血缘关系搞明白 # ,五年前在大智慧时期的顺口溜,最近在数据治理的工作中,给我带来了一些启示,今天通过一篇短文的方式向大家进行下分享。


01. 什么是数据血缘关系?有什么用?

任何的数据,从产生、加工、融合、流转,到最终消亡,数据之间自然会形成一种关系。好比人类社会中的人际关系,类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。



图 1. 结构化数据血缘关系的层次表达


与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:


  • 归属性:特定的数据归属特定的组织(或个人),也就是谁是你爹,你是谁的儿子。

  • 多源性:同一个数据可以有多个来源,一个数据可以是多个数据经过加工而生成的,也就是你可能有一个爸,还有一个妈。

  • 可追溯性:数据的血缘关系,体现了数据的生命周期,也就是你从出生到老死的路线图。


相对之下,结构化数据血缘关系的层次结构比较简单,对于非结构化数据,如以文件服务器存储的数据来说,血缘关系的层次结构会略有不同。



图 2. 非结构化数据血缘关系的层次表达


不同层级数据的血缘关系,体现着不同的含义。所有者层次,体现了数据的提供方、需求方及来龙去脉。


数据血缘关系的作用,也可以理解为提供数据流转的各项信息,作为数据价值的评估、管理依据。


02. 这对数据治理又有什么帮助?

对于数据的血缘关系,可视化是成败的关键。想象一下,如果数据血缘之间的关系都无法用可视化呈现,那治理数据还有什么意义呢?



图 3. 当时的数据血缘关系可视化设想


当时的规划,是希望通过可视化,将规则、流向分布显示在图形上的不同位置,从而起到如下几个方面的作用:


  • 追踪数据溯源:当数据发生异常,帮助追踪到异常发生的原因,平时也能帮助我们追踪数据的来源,追踪数据处理过程。

  • 评估数据价值:要对数据价值进行评估,就需要有依据,数据血缘关系,可以从 #数据受众、数据更新量级、数据更新 # 频次等方面给数据价值的评估提供依据。

  • 数据质量评估:数据的血缘关系图上,可以方便的看到数据清洗的标准清单,这个清单反映了对数据质量的要求。


本文转载自头哥侃码公众号。


原文链接:https://mp.weixin.qq.com/s/-G5n-J_fr31jHyY0OicCHA


2020 年 4 月 15 日 16:45559

评论 1 条评论

发布
用户头像
妈的怎么实现的呢
2021 年 03 月 11 日 20:41
回复
没有更多了
发现更多内容

Ribbon使用及其内核原理剖析

程序员Fox

区块链矿机挖矿系统开发软件技术

系统开发咨询:I76-883I-5I52 邓森

研发团队如何实现无缝协作?

万事ONES

研发管理 团队协作 研发效能 研发工具

京东三面凉凉:java+spring+jvm+kafka+微服务等一个都讲不清

Java成神之路

Java 程序员 架构 面试 编程语言

区块链商城APP系统开发|区块链商城软件开发

开發I852946OIIO

系统开发

JVM 的运行时数据区域分布

rookiedev

Java JVM

2020中国 .NET开发者大会精彩回顾:葡萄城高性能表格技术解读

Geek_Willie

GCExcel 中国 .NET开发者大会 表格技术

区块链矿机系统开发现成案例

系统开发咨询:I76-883I-5I52 邓森

让你的简历不落窠臼,精雕细镂写一份真正的技术简历(Python向)

刘悦的技术博客

Python 面试 简历优化 简历

Java 细粒度锁续篇

rookiedev

Java 多线程 加锁

这份GitHub上价值49K的SpringBoot2+Thymeleaf企业应用实战,真香

Java成神之路

Java 程序员 架构 面试 编程语言

“闭关修炼”这么久,吃透这些“微服务”笔记,足够面试涨10K

Java成神之路

Java 程序员 架构 面试 编程语言

拼多多技术3面(Java研发):幻影读+Redis+分布式缓存+锁机制

Java成神之路

Java 程序员 架构 面试 编程语言

编写令人愉悦的API接口(一)

陈云轩

Java 程序设计 API APi设计

关于昆明市政协、市统战部、民革昆明市委赴云南坤艮盈科技有限公司(商务部CECBC区块链专委会秘书处云南办事处)调研指导工作

CECBC区块链专委会

云南发展

转型项目经理?

escray

面经 面试经历 101次面试 七日更 十日谈

假冒、诈骗、隐私安全,如何应对数字人民币的风险与挑战?

CECBC区块链专委会

货币

使用 Helmfile 解放你的 Helm Chart

郭旭东

云原生 Helm

成为分布式系统架构师,都要学哪些东西?该怎么学?

四猿外

Java 程序员 分布式 分布式系统 架构师

总结近期腾讯+阿里+百度Java岗高频面试题,提问率高达98%,看到这篇文章基本offer稳了

Java成神之路

Java 程序员 架构 面试 编程语言

号称大厂面试官的克星,“神仙版”Java面试宝典,“真”吊打大厂面试官

Java架构之路

Java 程序员 架构 面试 编程语言

微服务架构太难了?那你可能还没掌握SpringBoot+SpringCloud+Docker+RabbitMQ

Java架构之路

Java 程序员 架构 面试 编程语言

数字货币交易所交易平台系统开发

系统开发咨询:I76-883I-5I52 邓森

LeetCode题解:92. 反转链表 II,迭代,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

吊!设计模式全解:6大设计原则+23种设计模式+设计模式PK+设计模式混编

Java架构之路

Java 程序员 架构 面试 编程语言

腾讯T4架构师:刷3遍以下面试题,你也能从小公司成功跳到大厂

Java架构之路

Java 程序员 架构 面试 编程语言

远见而明察近观若明火|Centos7.6环境基于Prometheus和Grafana结合钉钉机器人打造全时监控(预警)Docker容器服务系统

刘悦的技术博客

Docker 高可用 监控 Prometheus 预警

用了这个评估优化LiteOS镜像利器,我有点飘...

华为云开发者社区

镜像 开发 环境配置

学习笔记丨数据结构之二叉查找树

Liuchengz.

数据结构 C/C++ 数据结构与算法 高级数据结构

规模化敏捷框架何从入手?这篇文章把SAFe讲透了!

华为云开发者社区

敏捷开发 框架 safe

区块链农场游戏系统开发软件定制

系统开发咨询:I76-883I-5I52 邓森

2021 ThoughtWorks 技术雷达峰会

2021 ThoughtWorks 技术雷达峰会

数据治理的大方向是Database Mesh?先把数据之间的血缘关系搞明白,咱再吹行吗?-InfoQ