立即领取|华润集团、宁德核电、东风岚图等 20+ 标杆企业数字化人才培养实践案例 了解详情
写点什么

将 ETL 任务减少 30%,指标中台究竟是什么?

  • 2022-03-22
  • 本文字数:3343 字

    阅读完需:约 11 分钟

将ETL任务减少30%,指标中台究竟是什么?

经过一二十年的 IT 建设,很多企业已经从“没有数据”发展到了“数据太多”的阶段。如今,各行各业正在由过去粗放式的增长向数据支撑的精细化运营转型,但随之而来的是 ETL 任务的激剧膨胀,整个数仓可能充斥着几百万张表。无数个 ETL 任务的重复性工作,带来的不仅是存储问题,不断被消耗的数据集群资源使大家面临着更加严峻的挑战,维持这些数据应用模式,传统方法已经捉襟见肘。

 

为什么传统方法过时了

 

自“数仓”在 1980 年开始被提出来到现在,数据基础架构已经经历了不同的变化,从集中式向着分布式演进。

 


(图片来源:Kyligence)

 

集中式的基础架构演进了几轮,但都是把业务系统的数据从各个地方汇集过来,规整完成、标准化完成,再存起来放在一个地方。然而在过去的一到两年,行业开始出现了一个更大的变化——尤其是去中心化,它已经成为了当下最热且发展最快的基础架构变化,在整个数仓的方向上,去中心化是如今云和 SaaS 时代的未来。去中心化意味着不再按原来的数据仓库的方式收集数据,而是能够连接到不同的数据源,实时地把数据汇过来,去服务一定的数据服务的应用。

 


(图片来源:Kyligence)

 

在过去企业构建 IT 基础设施的过程中,逐渐形成了各种烟囱式的数据设施,也给大家带来了数据孤岛的问题。数据上云、湖仓一体化都可以很好地解决了数据孤岛的问题,让企业内部的指标管理更统一,数据接口更标准,分析更自助。但一线业务和数据分析人员面临着一些其它方面的挑战:各企业的数字化建设在这一二十年里有了初步的成果,但是数据量巨大。在过去的几年里面,企业 CIO 们是非常焦虑的。很简单,如果你使用了一个中等规模以上的比如说 BI 或者是数字仓库的技术栈,你一定有几百到几千张的报表,每张报表如果有十个以上的指标,那就意味着有几万甚至几十万的业务指标,这些口径是不是统一?这些数据是不是在被人使用?这些相应的价值其实已经非常复杂了。

 


(图片来源:Kyligence)

 

更可怕的是整个的过程会让 ETL 任务和中间进行大量的膨胀。这不仅仅只是存储的问题,它带来更大的挑战在于,它有无数的 ETL 的任务其实在不断地做着重复性的工作,不断地消耗整个数据集群的资源。另外还存在口径不一致的问题,当用这些数据做一个管理决策的时候,需要有数据来参考,但各部门数据来源又可能存在分歧,比如这个部门说自己是从 Power BI 里看到的,另外一个部门说是从数仓里面拿到的数据,这就不能帮助企业做出高效的决策。

 

而每一张报表背后每运行一次,都可能涉及到几百甚至几千的费用,这就需要用管理的方法把这些报表的数量控制下来。所以企业需要进行数据治理,从几十万张报表中去掉重复、不准确的部分,与企业业务目标口径不对齐的部分,将剩下的做一些高度的统一,甚至在部门的生产线上拉齐认知。

 

这种转变,在 Kyligence 春季论坛活动的采访中,Kyligence CTO 李扬说:“这有点像 20 年前,大家刚切换到 ERP 电子化,从一些手动的办公能力上升到电子化的办公能力。那个时候就有一个 Business Process Re-engineering(BPR,企业流程再造)的说法,就是说你要上这个系统先得梳理自己的业务流程。业务流程不梳理好这个系统上也上不去,也没法提升管理能力。到现在,去中心化的发展后,一样也需要先将企业的指标,数字化运营的思路理清楚。如果讲不清业务目标、过程指标、结果指标,那就不知道拿什么追踪,拿什么来做数字化的管理。”

 

“这时发展指标中台就能帮助用户解决这个问题,最终出口可能还是 BI,但可以精准地以统一的口径快速帮管理者做出决策。从我们的实践来看,当一个企业需要进行管理改革或者业务变化的时候,指标中台就能反映出这个变化过程和结果,进而驱动整个公司的业务发展。这也是我们说的一个趋势点:以指标为核心进行公司的指标变革。”

 

指标中台能改善什么

 

过去的几年里,很多企业都在投入建设口径统一、自上而下的新型指标平台,来有效衡量业务经营和发展情况,真正实现数据赋能一线业务。Kyligence 在服务客户的过程中发现,由于一些中小型企业的 IT 管理人员并非大数据专业出身,因此在维持大数据系统的时候,会逐渐发现难度越来越大。很多大的企业经过一两年的数据治理之后大概会到 Muddy DW(混乱的数据仓库)这么一个阶段,其数仓中有非常多的表,而且原始数据可能只有几千张表,但各部门、各组织都非常有欲望地生产自己的数据指标,就会形成几百倍的放大。有的客户原始表经过宽表、聚合表,分析表等的加工处理以后甚至可以达到百万级别的表。这不仅会造成了数字口径不统一,拖慢了企业的决策,更是耗费了大量的 IT 资源。

 


(图片来源:Kyligence)

 

这种情况下,我们就需要改造它,在数据的入口保持不变的情况下,将提取指标的过程标准化,到接近服务再给到一线业务自由度再放开,所以这个过程在数据处理的路径上是收敛的,大家可以从面积上直观感受到背后所节省掉的 IT 的资源是非常可观的,从整个企业对数字指标化运营的统一逻辑来说也有一个很清晰的抓手。

 


 (图片来源:Kyligence)

 

另一方面,Kyligence 核心的能力是来自于多维数据库乃至 OLAP 的能力,所以其本质可以说是一个管理系统,即使客户指标完全存在一个数据集里面,包括度量和维度,再往上就是指标的平台本身,可实现自然的过渡。Kyligence 联合创始人兼 CEO 韩卿表示指标中台有助于解决企业管理上的挑战:“任何指标平台一定是一个管理系统,例如不同部门指标不统一、指标过时等等,都属于管理问题。”

 


Kyligence 指标中台解决方案

 

在 Kyligence 解决方案中,提供了指标管理引擎和指标计算查询引擎两大核心组件,该方案可以部署在任何分布式存储和计算环境下,比如像公有云环境、私有云、大数据平台等等,并支持与底层各类数据源实现对接,从而以此助力企业以指标为中心,构建整个数字化体系建设的方法论,建立数据管理共识,最终服务于企业管理目标。同时,企业在落地指标中台后,可以实现“边使用,边治理”,不断挖掘数据的价值。

 

指标中台的实施效果

 

众所周知,银行业一直走在信息化、数字化的前沿。近年来众多银行都在大力投入建设新型指标平台来实现口径统一的、自上而下的业务驱动的指标体系,实现数据赋能一线业务,全面推动银行数字化经营。

 

韩卿认为金融行业跟其他行业有一个不太一样的地方,在于金融行业整个 IT 建设相对比较成熟,如果完全按照过去整套的数仓理论进行构建的话,例如从整个原始数据到 ODS 到 ETL ,到数据仓库,到 BI 端等等,经过发展论证,这将不可避免带来数据沼泽或者说是混乱的状态。也就是说,口径不一致这方面的问题变得更加突出了。以前是没数据,现在是数据太多,需要通过指标的抓手去进行底层的梳理和相应的规整等,去做整个的数据治理来去降本增效。

 

例如自某股份制银行推动集团数字化战略以来,每个 BU 都在搞自己的数字化经营平台,导致数据需求爆增。同时,烟囱式建设导致口径不一,还带来了数据治理和人力成本等等的痛点。当 BI 平台报表就有 7000 多张,为了各类数据应用手工开发的汇总表高达 1 万多张的时候,随着数据需求的爆发,这些数据表、ETL 作业、BI 报表的开发维护工作量非常巨大,传统数据应用模式根本就无法持续。

 


(图片来源:Kyligence)

 

因此,经过分析并结合业界的经验教训,该银行提出了指标治理切入,通过指标治理推动数据治理,降低用户的用数门槛,从而赋能银行的数字化经营。在这次指标治理的思路当中,治理的重要抓手就是建设新型指标平台。在指标管理系统当中,基于维度模型,通过统一的指标定义派生、衍生,并结合全行规范化的指标需求管理,实现指标口径的统一。而指标的加工、计算以及查询,利用 Kyligence 的方案,基于 SQL 模版,自动进行智能建模,并完成指标的汇总、加工和计算。通过建设指标平台,将大量的指标需求转换为指标及指标看板的开发方式,降低业务用户制作报表的门槛与难度。

 

据悉,目前该平台的日均访问用户量已经达到了 5000 以上,页面查询访问量高达 20 万以上,尤其是指标数量,已经高达 1.1 万,其中大部分是用户自己派生和衍生出来的自定义指标。新的指标应用模式,使 50% 的报表需求可以基于指标和指标看板来支撑,同时还将 ETL 任务减少了 30% 以上。通过指标平台的建设,能够帮助该银行推动数据治理,基于指标平台将企业数据资产实现了广泛的共享。

 

2022-03-22 15:039254

评论 2 条评论

发布
用户头像
airbyte 反向ETL了解一下
2022-09-14 11:03 · 浙江
回复
用户头像
Kyligence构建引擎/查询引擎 开源吗
2022-03-28 16:27
回复
没有更多了
发现更多内容

HarmonyOS 联合绿盟发布折叠屏软件规范,携HUAWEI Mate X3带来创新折叠体验

科技汇

测试同学职场成长的关键要素

老张

团队管理 个人成长

分享:ODC 如何精准展现 SQL 执行的耗时?

OceanBase 数据库

数据库 oceanbase

对话数十位学术合作代表:如何提升前沿技术在商业领域的落地应用?

阿里技术

前沿技术

Springboot 撞上 NebulaGraph——NGbatis 初体验

NebulaGraph

Java ORM 图数据库

3D模型分割新方法解放双手!不用人工标注,只需一次训练,未标注类别也能识别|港大&字节

Openlab_cosmoplat

模型 开源社区

注意!2023,你需要了解这些IT趋势

引迈信息

人工智能 程序员 网络安全 低代码

华秋电子受邀参加产业高峰论坛,探讨电子行业新商机

华秋电子

EasyExcel 带格式多线程导出百万数据(亲测牛逼)

三十而立

Java 互联网 IT 程序猿

裸辞底气!GitHub飙升“java面试笔记2023” 了解下八股文天花板

三十而立

Java 互联网 面试 IT java面试

EasyExcel 带格式多线程导出百万数据

三十而立

Java 互联网 IT

3 天交付新需求?极狐GitLab APP 「极限编程 XP」实践

极狐GitLab

DevOps 敏捷开发 CI/CD 极限编程 极狐GitLab

软件测试 | 白盒的测试方法

测吧(北京)科技有限公司

测试

ChatGPT王炸更新!能联网获取新知识,可与5000+个应用交互,网友:太疯狂了

Openlab_cosmoplat

工业互联网 开源社区 智能制造 ChatGPT

PCB生产工艺 | 第九道主流程之表面处理

华秋电子

Moblink节省开发者时间精力和公司成本

MobTech袤博科技

软件测试/测试开发丨app自动化测试之设备交互API详解

测试人

软件测试 自动化测试 测试开发 appium

9000字,通俗易懂的讲解下Java注解

Java你猿哥

Java ssm 实战 Java工程师

开源工具系列6:Grype

HummerCloud

LP流动性挖矿代币分红模式dapp系统开发原理

开发微hkkf5566

软件测试 |全局变量和局部变量有什么区别?

测吧(北京)科技有限公司

测试

面试造火箭?GitHub飙升“2023(Java 岗)面试真题汇总”转载40万

三十而立

Java 互联网 IT java面试

熟悉的测试用例设计方法都有哪些?

测吧(北京)科技有限公司

测试

集成化、小型化、大势所趋,模块电源优势明显

华秋电子

为研发效能度量找到合适的参照系

思码逸研发效能

研发效能 效能度量

自学黑客/网络渗透,一般人我劝你还是算了

网络安全学海

黑客 网络安全 安全 信息安全 渗透测试

测试策略与测试手段

测吧(北京)科技有限公司

测试

软件测试/测试开发丨app自动化测试之Andriod微信小程序的自动化测试

测试人

微信小程序 软件测试 自动化测试 测试开发

谈谈低代码的安全问题,一文全给你解决喽

加入高科技仿生人

软件开发 低代码 信息安全 低代码开发

让Web和App无缝链接的移动深度链接方案

MobTech袤博科技

软件缺陷是什么?

测吧(北京)科技有限公司

测试

将ETL任务减少30%,指标中台究竟是什么?_大数据_Tina_InfoQ精选文章