QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

数据治理之需求层次

  • 2023-02-17
    北京
  • 本文字数:3381 字

    阅读完需:约 11 分钟

数据治理之需求层次

01 什么是数据治理


国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。


国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。


IBM 给出的定义:数据治理通过不同的策略和标准提高组织数据的可用性、质量和安全性。这些流程确定数据所有者、数据安全措施和数据的预期用途。总体而言,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。


不同的企业和机构对数据治理有不同的理解和目标。通过我的理解和查阅,数据治理比较通用的目标是:

  • 通过一系列技术等手段提升企业数据质量、稳定性和安全性

  • 通过数据标准和数据资产的建立,提高数据资产使用效率,降低数据使用成本

  • 通过数据挖掘,提升数据的价值,提高企业核心竞争力和影响力,实现商业价值


针对上面的目标,参考马斯洛需求的分层,我也将数据治理分成了 5 层。


02 数据治理的需求分层


马斯洛需求的五个层次分别是:生理需求、安全需求、社交需求、尊重需求、自我实现需求。



按照马斯洛需求分层的模式我们可以将数据治理分成以下五个层次,分别是:稳定需求、安全需求、易用需求、质量需求、成本价值需求。



模型越往上带来的价值越高,越往下越是基础的要求。但是没有基础需求层的支持就谈不上上层的需求。

03 稳定需求


数据的稳定性需求是指数据能够稳定产出,并且产出及时。就相当于马斯洛的第一层生理需求,解决吃饱饭(稳定产生数据)的问题。


这里对于数据稳定,我们将获取数据的及时性也归纳为稳定,那么主要分为 3 个维度,2 个指标:



可靠性:


在高可靠性(也称为可用性,英文描述为 HA,High Available)里有个衡量其可靠性的标准——X 个 9,这个 X 是代表数字,X 个 9 表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。


  • 3 个 9:(1-99.9%)*365*24=8.76 小时

  • 4 个 9:(1-99.99%)*365*24=0.876 小时=52.6 分钟

  • 5 个 9:(1-99.999%)*365*24*60=5.26 分钟


由于数据数据计算往往不是供用户直接使用的在线系统,有的业务中经常用数据计算任务出现问题的次数来衡量数据的可靠性。


时延性


在大数据中我们经常将(交易日期 Transaction Date 简称 T,数据产生的日期)作为基准,然后通过它来描述数据行为产生到数据结果呈现的延迟。它们是:

  • T + 0:当天就能看到当天发生的数据,如果是及时的就是实时数据

  • T + 1:当天产生的数据,在第二天才可以查询

  • T+ 2,T+3 ... :当天产生的数据,在第 2,3...天才可以查询


此外 T 可以指代当周、当月、当年,如当 T+1 的月数据,是指当月产生的数据,在次月才能看到数据,一般适用于月度统计。


在准实时数据处理中也可以用 H+0,H+1 的方式来反馈数据处理的时延。


04 安全需求

数据安全需求,是指数据权限管理、敏感数据保护、合规要求。就相当于马斯洛的第二层安全需求,解决环境安全(数据安全合规)的问题。


数据安全包括两个方面第一就是数据不被泄露窃取,第二个就是数据合法合规。随着欧洲联盟《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)的颁布和《国内数据安全法》,《个人信息保护法》的实施,数据安全越来越重要。


数据权限


近年来,随着互联网的快速发展,数据泄漏屡见不鲜,基本上每年都会有数据或者账号的泄露的事件。如果数据安全都不能保证,那就谈不上数据治理。通常我们可以从下面三方面去做好数据的权限控制和隔离:

  • 计算存储资源的多租户数据隔离

  • 系统的多账号角色权限数据隔离

  • 内外网以及系统之间的数据隔离


数据合规

数据合规是指数据存储和使用符合相关法规和规范的要求。按照法规、公司制度、监管或行业标准对数据一般有以下要求:

  • 存档保留的时间

  • 数据脱敏处理

     对于像身份证、手机号、住址、籍贯等个人隐私敏感数据以及财务等企业敏感数据,必须要做好相应的脱敏处理,保证数据不被泄露。方法通常有遮盖处理、静态加密算法加密、动态加密算法加密。

  •  合规的获取和使用用户数据


05 易用需求


数据易用需求,是指数据在共享使用中,易于查询,理解,规范。就相当于马斯洛的第三层社交需求,解决交流分享(数据易查询使用)的问题。这个层主要解决的范畴为:


  • 数据查询

对于这块,往往是通过搭建一套 BI,OLAP 自主系统等手段来提升用户的使用查询数据的体验。技术手段比如采用开源的 OLAP 引擎:Kylin、Druid、ClickHouse、Doris、StarRocks,开源的数据可视化组件:Superset、Grafana、Davinci 常用指标有:TP90, TP95, TP99 查询返回时间,即 9X% 的数据都满足某一条件;QPS:(Queries Per Second),每秒查询率。


  • 数据标准

业务标准规范。数据统计标准,例如 CTR,ROI 如何计算;数据中分类的统一规范。

技术标准规范。数据的类型、长度、格式、编码、命名规则等。

管理标准规范。数据访问的标准流程,数据的删除,接入规范


  • 数据模型

数据模型的复用性。复用性低,说明模型设计的不太好,新需求不能基于模型开展,提高了开发维护成本。

数据模型的耦合性。耦合度过高会给数据的运维、治理带来很多影响,在数据下线、变更、治理过程中不得不考虑到依赖。

数据模型的稳定性。稳定性差,经常变动说明设计脱离业务,缺乏标准或者业务覆盖度不够。


解决好上面三方面的需求,数据易用性基本上就可以达到用户需求,数据治理成效也可以用前端页面给用户体现出来。

06 质量需求


数据易用需求,是指数据在准确性、完整性、一致性、有效性。就相当于马斯洛的第四层尊重需求,解决受人尊重(解决数据质量就会被使用者尊重)的问题。


数据质量需求主要依靠数据监控和数据调度配合完成才能提高数据质量,当然人工的参与和流程也需要规范。



  • 数据准确性监控。主要监控数据接入是否符合标准,数据产生到计算结果过程中数据是否出错,不一致。

  • 数据完整性监控。

  • 数据一致性监控。监测两种数据渠道数据结果是否一致。

  • 数据有效性监控


通过监测我们可以产生数据质量质量的数据,我们可以通过一些算法形成数据质量报告,来定期评估数据质量的提升。



07 成本价值需求


数据成本价值需求,是指数据生产的经济性,数据应用创造的价值。就相当于马斯洛的第五层自我实现需求,解决花钱赚钱(解决数据产生效益,完成自我实现)的问题。


这一层次的需求主要其实就是通过降低成本增加收益。我认为做到以下几点是数据质量在这块关注的重点:



  • 成本量化

数据血缘,元数据管理等手段,理清每个表数据的成本。通过日志分析来可视化每个大数据处理任务 Job 的费用。


  • 价值量化

数据治理到底重不重要,能带来什么价值,一直是困扰企业数据治理问题,也会经常被企业领导和业务部门质疑。如果能有够将数据治理带来的成功量化那势必会打消大家的疑虑。例如通过数据治理业务部门节约了多少成本;通过数据质量的提高业务部门的 ROI 是否得到提高;通过数据稳定性安全性的提升,业务系统是否更加稳定和避免了数据泄露损失。


  • 成本优化

通过表热度分析,处理僵尸报表和任务。对数据表进行 LTV 分析,对于低价值高消耗的数据计算任务,进行降级处理,例如降低计算频次,排到计算资源空闲的时间处理,存储在成本较低的介质上。对于高价值高消耗的任务,评估成本改造方案。

08 总结


数据治理几个需求分层之间是相互依赖不断迭代的,越往上层越接近业务,也越容易体现数据治理带来的成功。要想数据治理取得成功,除了技术工具,我们还应该关注流程规范和组织保障。


  • 组织保障

组织统一规划数据治理目标,固定的专业组织、充分赋权,有利于数据治理实施的整体推进;一套行之有效的制度,更容易让数据治理,数据规范落地执行。

  • 流程规范

这个其实就是指在数据治理中制定的数据接入输出等相关流程,建立的数据标准。有了流程规范才能知道数据治理的方向和细则,避免数据使用和提供方盲目抓虾。

  • 技术工具

技术工具平台是保障数据成果转化的关键,没有工具平台数据治理可能最后只是设想和空谈。一组优秀的平台工具可以保障数据治理规划和流程的完整落地,从而产生价值收益。


在数据治理过程中我们应该结合需求层次制定具体方案,通过评估收益来决策数据治理的投入。


原文链接:

https://mp.weixin.qq.com/s/tMoP8bCG3udLyPlCt9eUgA


作者简介:

刘周龙,易点天下大数据专家,大数据平台负责人。加入易点天下前曾就职于搜狐视频、腾讯,擅长大数据平台和相关系统建设,个人公众号“早起的码农”。


2023-02-17 18:356215

评论

发布
暂无评论
发现更多内容

2021年末总结

编号94530

工作 架构设计 心得 2021 项目经验

HTTPDNS 快速入门

37手游iOS技术运营团队

DNS httpdns

盘点 2021|一个新的开始

IT蜗壳-Tango

28天写作 12月日更 盘点2021 盘点 2021

性能提升40%!阿里云神龙大数据加速引擎获TPCx-BB世界排名第一

阿里云弹性计算

阿里云 神龙

五天玩转EMAS Serverless训练营

移动研发平台EMAS

阿里云 #Serverless #EMAS

2022年购买服务器运维管理软件选择哪家好?

行云管家

IT运维 服务器运维

回顾2021,展望2022 | TDengine一年“成绩”汇总

TDengine

数据库 tdengine 2021年终总结

重塑企业创新方式 Serverless让云“开箱即用”

BeeWorks

硬核化解ISV四大痛点,华为云智联生活行业加速器助力伙伴实现商业成功

华为云开发者联盟

华为云 HarmonyOS 智联生活 华为云IoTDA 云云协同

seata分布式事务TCC模式介绍及推荐实践

恒生LIGHT云社区

分布式 分布式事务 seata TCC

全国首个!OceanBase 助力江西省养老保险全国统筹信息系统上线

OceanBase 数据库

OceanBase 开源 OceanBase 社区版 核心系统

Veritas:2022年数据安全及合规领域行业预测

BeeWorks

探索SaaS产业发展新机遇|鲁班会贵安首秀圆满收官

华为云开发者联盟

SaaS 华为云 应用构建

腾讯云数据库2021年成绩单,请检阅!

腾讯云数据库

tdsql 国产数据库

《国产分布式数据库选型及满意度调查报告》出炉,OceanBase获得双料第一

OceanBase 数据库

分布式数据库 OceanBase 开源 OceanBase 社区版

Xcode 配置多套 App 图标的方法 --- AppStore 图标 A/B Test 实践

37手游iOS技术运营团队

ios xcode appstore 产品页优化 自定产品页

OpenMLDB 12月会议纪要

第四范式开发者社区

人工智能 机器学习 第四范式 OpenMLDB

皮皮APP x 武汉市社会心理服务指导中心 联合开展社交讲座

联营汇聚

SpringMVC框架基础知识(01)

海拥(haiyong.site)

28天写作 12月日更

你设备中的木马藏在哪里?为什么查杀困难?

喀拉峻

黑客 网络安全 安全 信息安全 木马病毒

大型购物平台的系统设计与架构

恒生LIGHT云社区

平台搭建 构架 平台架构

“千言”开源数据集项目全面升级:数据驱动AI技术进步

百度开发者中心

千言

数字化转型失败,有哪些原因?

禅道项目管理

数字化转型

2021MongoDB技术实践与应用案例征集活动获奖通知

MongoDB中文社区

iOS 编译器__Attribute__的入门指南

37手游iOS技术运营团队

xcode LLVM Clang编译 Clang Attribute

COSCL开源评选名单公布!OceanBase 社区版荣获2021优秀开源项目奖

OceanBase 数据库

OceanBase 开源 OceanBase 社区版

CRM系统为什么被认为是企业的重要资产?

低代码小观

企业管理 资产管理 CRM 企业管理系统 CRM系统

当MySQL执行XA事务时遭遇崩溃,且看华为云如何保障数据一致性

华为云开发者联盟

MySQL 华为云

CentOS 停服,龙蜥社区已上线解决方案专区

OpenAnolis小助手

centos 国产操作系统 龙蜥社区

OceanBase 通过工信部电子标准院首批开源项目成熟度评估

OceanBase 数据库

数据库 工信部 OceanBase 开源

云堡垒机和普通堡垒机的三大区别分析-行云管家

行云管家

云计算 网络安全 数据安全 堡垒机 云堡垒机

数据治理之需求层次_数字化转型_刘周龙_InfoQ精选文章