QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

为数据治理构建数据成熟度模型

  • 2007-09-10
  • 本文字数:1425 字

    阅读完需:约 5 分钟

在横跨 5 天的 5 篇博文中,数据治理博客提供了一个开发数据成熟度模型的快速入门指南。与先前建立数据治理成熟模型的方法的有趣的不同点是:它提倡一个为给定的组织量身定做适当的模型,而不是试图为了统一而应用标准模型。在这个 5 部分组成的数据治理系列中,开始部分关注定义范围,建立基线。在给你的数据建立一个成熟度模型时,首先在你的企业数据中划定要治理的那部分数据是非常有必要的。一旦数据的范围定义好了,就需要给它建立一个基线。见专题中的:

什么是你的数据集中成熟度级别最低的数据?你的回答可能是沿袭这条思路:未被审查的、没有被建模的,没有元数据、不知道它是什么的”,“它虽然在我们的协助数据模型中,但是除了字段名外没有其他信息,没有元数据”,或者“它在我们的模型中,我们有一些过时的定义,而且我们也不再认为它是可信赖的” 这可能会花费很多的时间,但最重要的是为它建立一个基线。需要捕获的主要内容是:

  1. 它在你的数据模型中吗?
  2. 你给它的元数据了吗?
  3. 如果有元数据,你信任元数据中的信息吗?

在第 2 天,介绍了数据成熟度模型的自然级数:

你现在要寻找的是你能看到的数据当前所处于的级别。从最低的级别开始,你能够看到的在成熟度中的下一个位置在哪里?如果你的起始级别是“未建模的、没有元数据、不知道它是什么的”,你的数据所能看到的下一步可能是“属于我们的数据模型但是我们对它获得不了其他的辅助信息”……与其建立一个需要强制我们的数据去适应它的数据成熟度模型,不如让我们用数据已经存在的不同的阶段来定义成熟度的路径。

3 篇 blog 把关注重点从最低级的成熟度转向最高级的成熟度,并试图使用一致的术语来架越鸿沟:

其实,我想让你做的是拿出你在第一天得到的内容并写下与它完全相反的内容,这个会帮助你确定最高的成熟度级别。所以,如果你的最低级别是:“未建模的,未被评审的,没有元数据的”,那么最适宜的最高级别应该是“数据模型经过了数据治理委员会评审和治理过的,验证过了数据模型并进行了及时更新”。这样做会让你的成熟度模型框定相同的项目。如果你在讨论你的最低级别的数据模型,你应该讨论包括最高级别在内的其他级别。

在第 4 篇博文中提供了成熟度模型可用的模板, 第 4 5 两篇博文带你领略如何为你的组织量身定制合适的成熟度模型。

先从最重要的事情开始,完成下列内容:填写你的数据治理成熟度模型模板,找出你的程序中的范围内数据。 下面要做的是从你的数据中取样,并确保你能从成熟度模型中轻松的为其进行定位。如果再让我我来做这步工作的话,我会随机的挑选出 40 个字段并逐一进行检查。我会查看这些字段,检查模型,检查它们是否拥有元数据等,并看它们是否可以属于某个级别。你需要确保所有这些数据字段都在成熟度模型中找到了归属位置。如果在这其中发生了生命问题,说明你还没有完全清晰的定义好了你的等级。如果它们同时被分到了两个级别中,你需要定义一个新的级别来说明其中的不同,或者根据它的特征合并到你其中一个已经存在的级别中。

查看英文原文: Building a Data Maturity Model for Data Governance - - - - - -

译者简介:孙向晖,儿子小名“豆豆”,常被人称为“豆豆他爹”。1998 年开始步入 IT 行业,现任浪潮软件质保中心副主任。专注于研究和实践 MDA/UP/UML/SCM 等相关技术在团队中的大规模应用,对产品化的软件项目管理、需求管理和配置管理略有心得。他的博客为 http://blog.csdn.net/xiaosun/ 。参与 InfoQ 中文站内容建设,请邮件至 china-editorial[at]infoq.com

2007-09-10 21:363356

评论

发布
暂无评论
发现更多内容

开源数据库风起云涌,openGauss 恰逢其时

openGauss

#数据库

Python Qt GUI设计:QTimer计时器类、QThread多线程类和事件处理类(基础篇—8)

不脱发的程序猿

Python PyQt GUI 计时器 多线程类和事件处理

一文讲透自适应熔断的原理和实现

万俊峰Kevin

微服务 熔断 Go 语言 熔断器 限流熔断

十月热点:EasyDL八大国产芯片实现模型部署全适配,度目智能门禁机CM-A1重磅发布!

百度大脑

人工智能 百度

一个基于DPoS共识算法的区块链案例解析

Regan Yue

区块链 11月日更 细讲区块链

Go 语言,测试功能详解 - 下

微客鸟窝

Go 语言 11月日更

消息队列表结构设计

guangbao

如何穿透ToB客户生命周期的全链增长?

ToB行业头条

堪称“高并发”教程天花板的Alibaba《基础+实战+源码+面试+架构》

收到请回复

Java 程序员 后端 java面试

双十一还是孤身一人?超强AI神器送你一个"对象"

百度大脑

人工智能 百度

点进来,与白洞一起体验一场沉浸式智慧轨道之旅

脑极体

Web 用户体验设计提升实践

Shopee技术团队

大前端 web开发 用户体验 交互设计 可访问性

经验分享|参与内部开源的心路历程

云智慧AIOps社区

大前端 数据可视化 知识分享 开源治理 flyfish

北鲲云超算携手西安电子科技大学开展高性能计算培训

北鲲云

openGauss支持国密SM3和SM4算法

openGauss

#数据库

NodeJs深入浅出之旅:内存控制(下)🐯

空城机

大前端 Node 11月日更

“元宇宙”到底是啥?为啥火了?鼓励探索警惕忽悠

CECBC

博文推荐 | Apache Pulsar 对现代数据堆栈至关重要的四个原因

Apache Pulsar

kafka 架构 Apache Pulsar 数据堆栈 DataStax

自定义View:多点触摸与实现任意拖动图片控

Changing Lin

11月日更

你找的网络安全系列书籍,都在这了!

喀拉峻

网络安全 安全 信息安全

16 K8S之容器健康监测

穿过生命散发芬芳

k8s 11月日更

盲盒app开发

【Quarkus技术系列】「云原生架构体系」配置参考指南相关的功能机制配置介绍分析

洛神灬殇

入门 配置信息 Quarkus 11月日更

译文 | 科普:Pulsar 和 Kafka 架构对比

Apache Pulsar

kafka 架构 分布式 中间件 Apache Pulsar

VR和AR只是入门,真正的元宇宙远不止于此

CECBC

Nginx中间件渗透总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

【云小课】如何初步定位GaussDB(for openGauss)慢SQL

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库

11.25直播预告|开源与SaaS水火不容?「观测云-可观测之路」第2期技术大咖为您解惑!

观测云

Ta们用数字种植绿色山河:牛津博士与储能之变

脑极体

从 Linux源码 看 Socket(TCP)的accept

赖猫

c++ Linux 后端 服务器 epoll

什么是低代码平台?

石云升

低代码平台 11月日更

为数据治理构建数据成熟度模型_治理_Mark Figley_InfoQ精选文章