移动端仍可深度探索的领域有哪些?点击看业内代表性技术方案及案例>> 了解详情
写点什么

合理使用元数据工具,解决大数据治理落地难点

  • 2016-08-02
  • 本文字数:3245 字

    阅读完需:约 1 分钟

元数据并不止存在于数据领域,近年来,元数据管理的范围在不断扩大,从简单的库表,到整个数据平台,再到服务管理,不断突破传统元数据管理的范畴。InfoQ 采访了普元软件产品部副总、大数据产品线总经理王轩,了解如下问题:“元数据”和“大数据”之间的异同之处在哪里?大数据环境下的元数据管理有什么特点?元数据元数据驱动的微服务架构有何特点?企业大数据治理难点在哪里?

InfoQ:请问大数据环境下的元数据管理有什么特点?

王轩:大数据环境下的元数据管理与以往不同,这种不同主要反映在元数据的录入方式上,在传统 BI 时代,很多企业主要以人工的方式对元数据进行收集和整理,但大数据环境中的数据类型和数据结构都变得更加复杂,元数据管理的范围变得更广,人工录入的方式已经不再适用,主要原因有以下几点:

  1. 大数据环境下的工具众多,无论是商业产品还是开源产品都变得更加复杂;
  2. 大数据治理中的数据采集与数据处理链条会变得更长,二者之间更难形成关联;
  3. 大数据环境下的数据来源各式各样,其中除了企业内部的数据,更多的数据来自于第三方机构;

如此复杂的企业大数据环境,对企业使用的元数据管理工具提供了更高的要求,大数据环境下的元数据管理工具,不应该再一味地追求用户并发数,而是应该以全面自动化的元数据采集作为系统功能的核心,以此来代替传统效率比较低的人工录入方式,对大数据环境中的各种元数据进行自动化采集,这也是评判一个企业元数据管理是否成熟的重要标志。

InfoQ:请问“元数据”和“大数据”之间的异同之处在哪里?元数据具有什么样的特性?

王轩:“大数据”中包含众多的元数据,可以说元数据是大数据应用的基础和前提。 元数据是信息的维度,可以说,掌握了元数据就掌握了信息的维度,它描述了信息概念以及他们之间的连接。其中信息概念表示某个业务所有维度的集合,连接则是描述元数据之间关系的方式。

元数据管理的概念是随着数据仓库的建设逐渐完善起来的,所以现在人们普遍认为元数据只存在于数据领域,其实这种对元数据的认识是不全面的,近年来,元数据管理的范围在不断扩大,从简单的库表,到整个数据平台,再到服务管理,甚至到驱动微服务,一直在不断突破传统元数据管理的范畴,从而形成了广义元数据的概念,我们可以发现,其实元数据广泛存在于企业架构的方方面面,而不仅仅是局限于数据领域里。

InfoQ:在金融、电信、制造、政府、电力等行业,需求和数据都不一样,在进行元数据服务治理时,如何减少差异化?有没有统一的模型?

王轩:每个行业对数据治理的需求是相同的,但是治理的路径各有不同,在进行数据治理时,要根据各行业不同的状况,采用不同的数据治理方案,但是大体的理念和思想是一致的。

第一,无论对哪个行业来说,数据治理都是对数据全过程,全方位的管控,是对数据采集、加工、存储、共享、应用等一系列完整流程的治理;

第二,任何行业的数据治理都不应该只是局限在理论和架构层面,整个治理过程都要靠工具和平台来支撑,推动数据治理的落地。

InfoQ:普元在大数据治理上有多年的经验,是否有形成一套通用的大数据治理的平台架构?

王轩:是的,我们先后完成了多家大型企业的大数据治理项目,以后大数据治理也是我们主要的发展方向,我们认为,大数据治理应该以元数据为核心,配合大数据标准、大数据交换集成、主数据管理、大数据质量、大数据资产化、大数据共享等共同完成整个企业层面的大数据治理。

大数据治理的本质是提升企业数据资产价值,这就要求企业在大数据治理中要将数据与服务结合,通过“数据 - 服务 - 价值”之间的相互转换和相互促进,实现企业的数据资产变现。

InfoQ:与传统软件中的微服务相比,元数据治理中的微服务有哪些特点?这种微服务架构如何解决哪些难点和痛点?

王轩:在微服务架构中微服务的粒度小,数量多,微服务的设计与微服务之间的连接需要一套规范,同时需要一套可以对话的统一“语言”,而元数据就可以看成是这种“语言”,用元数据来驱动微服务架构,能够规范整个微服务体系的设计。

传统的微服务架构中经常遇到以下几个难点

一、微服务边界交互难;二、微服务开发和使用不够规范;三、微服务脉络分析难;四、微服务全生命周期难以管理。

元数据驱动的微服务架构可以很好地解决这些问题。

第一,此种微服务架构可以在事前定义好微服务边界,通过元数据协助微服务的之间的交互,解决微服务边界交互难的问题;

第二,在元数据驱动的微服务架构下,可以用元数据来定义微服务中的标准规范,对微服务的数据标准和服务标准进行统一定义,以此来规范微服务的开发和使用;

第三,某个微服务的改变通常会影响到多个服务的联动调整,基于元数据驱动的微服务架构在脉络分析上有着明显的优势,通过元数据可以分析出整个微服务调用关系图谱,解决传统微服务架构下的脉络分析难点;

第四,通过标准元数据,可以在微服务规划阶段规范微服务,在设计阶段提供连接其他微服务的元数据信息,在开发阶段协助开发测试,在上线后分析微服务的使用情况,并协助维护微服务的变更,最后微服务下架时,将微服务的元数据存档,确保对目前体系不产生影响,从而对微服务的全生命周期进行科学有效的管理。

未来元数据驱动的微服务架构的应用还会有很多,还需要进一步思考和研究。

InfoQ:在您多年的研究大数据治理经验里,您认为大数据治理最难的地方是什么?

王轩:从我们的大数据治理项目经验来看,我觉得大数据治理最大的困难在于如何有效地落地执行。

我认为大数据治理落地难的原因主要在两个方面,一是现在大部分企业的大数据治理组织架构存在问题,二是除了组织架构之外,企业大数据治理更需要一套完整的平台工具来支撑。

第一,在组织架构上,企业的大数据治理还是应该由业务部门来主导,IT 部门来执行,并且引入相应的考核体系,以此来推动大数据治理一系列规范的执行和落地;

第二,在平台工具上,大数据治理是对数据采集、质量控制、数据共享一整条线的治理,在大数据治理过程中,不能再把重点放在对人的管理上,而应该把重点放在平台和工具上,一套完整的平台工具和自动化手段,能帮助企业更容易地进行大数据治理。

InfoQ:目前普元的大数据团队的主要情况是什么样的?您们的团队文化是什么样的?您在团队管理上有什么样的心得体会?作为“船长”您如何选择您的“船员”?

王轩:普元的大数据团队是一个以产品研发为主的团队,也是很专注的团队,我们一直专注在大数据治理领域,有多个相关产品,同时也在大数据治理市场上有不错的占有率。整个团队有多名 10 年以上的数据治理专家,对元数据,数据交换,数据标准,数据质量等都很擅长。

我们的团队是目标感和执行力很强的团队,我觉得一个好的团队,首先,需要有一致的目标,大家在一致的目标下,发挥自己所长。其次,需要很强的执行力,在面对困难局面的时候能够坚持,并解决问题。最后,有浓厚的学习的氛围,能够主动学习,主动分享。

团队管理,我认为是如何发挥每一个人长处的过程,我的团队有各种各样的人,每个人都有不同,我需要做的事情很简单,就是把大家放到能发挥长处的事情上去,在这样的事情中,帮助大家持续学习,最大化长处,尽量减少短处,让团队中每个人能够都能成长。

最后我觉得我并不是船长,而是船员,我们没有大轮船,可能更像是龙舟,每个人都在船上互相配合一起让船划得更快一点,走的更远一点。我选择的船员是能认同方向和我们一起用浆划船的人。

InfoQ:感谢王轩老师接受我们的采访。

受访嘉宾介绍:王轩,普元信息软件产品部副总、大数据产品线总经理,2010 年加入普元,全面主持普元大数据产品的研发、拓展及团队管理工作。十年大型企业信息化架构设计与建设经验,曾任中国人民银行核心平台架构师。主持参与了国家开发银行大数据项目、中国人民银行软件开发平台、国家电网云计算平台等大型项目建设。点击“阅读原文”查看王轩的在线分享《大数据治理技术核心,可扩展的元数据架构设计》

对元数据治理感兴趣可扫描二维码加入由王轩主持的“普元大数据研发开放群”,与大牛讨论更多元数据、微服务、大数据治理相关内容,加群备注为“meta”

查看原文

2016-08-02 19:005202
用户头像
Tina InfoQ高级编辑

发布了 731 篇内容, 共 414.3 次阅读, 收获喜欢 2533 次。

关注

评论

发布
暂无评论
发现更多内容

地狱开局的2022,穿好你的安全铠甲

脑极体

详细的网站定制步骤有哪些?

源字节1号

网站开发 软件定制

Python 的排序方法 sort 和 sorted 的区别

AlwaysBeta

Python

Kubernetes中API的不同版本, Alpha, Beta, Stable 都是什么?

工程师薛昭君

Kubernetes API

手把手教你从Apk中取出算法

奋飞安全

android 安全 java

java培训如何用反射做简易 Spring IOC 容器

@零度

Java springloc

【愚公系列】2022年03月 Docker容器 Kafka集群的搭建

愚公搬代码

3月月更

从HDFS的写入和读取中,我发现了点东西

华为云开发者联盟

hdfs HDFS写入 HDFS读取 文件读取

Go 中的空白标识符(下划线)

宇宙之一粟

Go 语言 3月月更

网络安全入门5天速成教程: WEB安全渗透攻防技术

网络安全学海

网络安全 安全 信息安全 渗透测试 WEB安全

缓存系列:缓存雪崩的解决思路

李哥技术

缓存 高并发 缓存雪崩 分布式缓存 缓存架构

无监控不运维—浅述各种监控方案使用场景

穿过生命散发芬芳

3月月更

ABAP 文件上/下载

Jasen Ye

upload abap download template GRAPHICS

微服务架构下消息服务多通道设计思路

全象云低代码

微服务 低代码 后端开发 消息中间件 后端技术

ABAP excel数据上传函数改造

Jasen Ye

Excel upload abap

你的“数学潜意识”原来可以被唤醒!

博文视点Broadview

云原生时代已来,计算机教育如何因「云」而变?

阿里云弹性计算

云原生 ECS 计算机教育

【直播回顾】OpenHarmony知识赋能第四期第三课——I2C驱动开发

OpenHarmony开发者社区

OpenHarmony 驱动开发

客户画像赋能百度推广生态实践

百度Geek说

前端 后端

Nginx限速模块初探

喀拉峻

nginx

数仓如何设置大小写不敏感函数

华为云开发者联盟

MySQL DWS GaussDB(DWS) 大小写不敏感函数 GUC参数

windows下C与C++执行cmd命令并实时获取输出

DS小龙哥

3月月更

项目管理标准化的武林秘籍

大智若愚

团队管理 项目管理 标准化 软技能 标准框架

实践丨SpringBoot整合Mybatis-Plus项目存在Mapper时报错

华为云开发者联盟

spring 容器 Spring Boot 测试 Mybatis-Plus

从多快好省到好快省多,您的项目管理走对了吗?

禅道项目管理

项目管理

从0到1落地电商小程序之微服务设计

晨亮

「架构实战营」

加快云原生技术转型, 智能调度登陆华为云DevOps: 增速,节源

华为云开发者联盟

软件 DevOps 代码托管 智能调度 华为云DevOps

合理使用元数据工具,解决大数据治理落地难点_大数据_Tina_InfoQ精选文章