写点什么

将 ETL 任务减少 30%,指标中台究竟是什么?

  • 2022-03-22
  • 本文字数:3343 字

    阅读完需:约 11 分钟

将ETL任务减少30%,指标中台究竟是什么?

经过一二十年的 IT 建设,很多企业已经从“没有数据”发展到了“数据太多”的阶段。如今,各行各业正在由过去粗放式的增长向数据支撑的精细化运营转型,但随之而来的是 ETL 任务的激剧膨胀,整个数仓可能充斥着几百万张表。无数个 ETL 任务的重复性工作,带来的不仅是存储问题,不断被消耗的数据集群资源使大家面临着更加严峻的挑战,维持这些数据应用模式,传统方法已经捉襟见肘。

 

为什么传统方法过时了

 

自“数仓”在 1980 年开始被提出来到现在,数据基础架构已经经历了不同的变化,从集中式向着分布式演进。

 


(图片来源:Kyligence)

 

集中式的基础架构演进了几轮,但都是把业务系统的数据从各个地方汇集过来,规整完成、标准化完成,再存起来放在一个地方。然而在过去的一到两年,行业开始出现了一个更大的变化——尤其是去中心化,它已经成为了当下最热且发展最快的基础架构变化,在整个数仓的方向上,去中心化是如今云和 SaaS 时代的未来。去中心化意味着不再按原来的数据仓库的方式收集数据,而是能够连接到不同的数据源,实时地把数据汇过来,去服务一定的数据服务的应用。

 


(图片来源:Kyligence)

 

在过去企业构建 IT 基础设施的过程中,逐渐形成了各种烟囱式的数据设施,也给大家带来了数据孤岛的问题。数据上云、湖仓一体化都可以很好地解决了数据孤岛的问题,让企业内部的指标管理更统一,数据接口更标准,分析更自助。但一线业务和数据分析人员面临着一些其它方面的挑战:各企业的数字化建设在这一二十年里有了初步的成果,但是数据量巨大。在过去的几年里面,企业 CIO 们是非常焦虑的。很简单,如果你使用了一个中等规模以上的比如说 BI 或者是数字仓库的技术栈,你一定有几百到几千张的报表,每张报表如果有十个以上的指标,那就意味着有几万甚至几十万的业务指标,这些口径是不是统一?这些数据是不是在被人使用?这些相应的价值其实已经非常复杂了。

 


(图片来源:Kyligence)

 

更可怕的是整个的过程会让 ETL 任务和中间进行大量的膨胀。这不仅仅只是存储的问题,它带来更大的挑战在于,它有无数的 ETL 的任务其实在不断地做着重复性的工作,不断地消耗整个数据集群的资源。另外还存在口径不一致的问题,当用这些数据做一个管理决策的时候,需要有数据来参考,但各部门数据来源又可能存在分歧,比如这个部门说自己是从 Power BI 里看到的,另外一个部门说是从数仓里面拿到的数据,这就不能帮助企业做出高效的决策。

 

而每一张报表背后每运行一次,都可能涉及到几百甚至几千的费用,这就需要用管理的方法把这些报表的数量控制下来。所以企业需要进行数据治理,从几十万张报表中去掉重复、不准确的部分,与企业业务目标口径不对齐的部分,将剩下的做一些高度的统一,甚至在部门的生产线上拉齐认知。

 

这种转变,在 Kyligence 春季论坛活动的采访中,Kyligence CTO 李扬说:“这有点像 20 年前,大家刚切换到 ERP 电子化,从一些手动的办公能力上升到电子化的办公能力。那个时候就有一个 Business Process Re-engineering(BPR,企业流程再造)的说法,就是说你要上这个系统先得梳理自己的业务流程。业务流程不梳理好这个系统上也上不去,也没法提升管理能力。到现在,去中心化的发展后,一样也需要先将企业的指标,数字化运营的思路理清楚。如果讲不清业务目标、过程指标、结果指标,那就不知道拿什么追踪,拿什么来做数字化的管理。”

 

“这时发展指标中台就能帮助用户解决这个问题,最终出口可能还是 BI,但可以精准地以统一的口径快速帮管理者做出决策。从我们的实践来看,当一个企业需要进行管理改革或者业务变化的时候,指标中台就能反映出这个变化过程和结果,进而驱动整个公司的业务发展。这也是我们说的一个趋势点:以指标为核心进行公司的指标变革。”

 

指标中台能改善什么

 

过去的几年里,很多企业都在投入建设口径统一、自上而下的新型指标平台,来有效衡量业务经营和发展情况,真正实现数据赋能一线业务。Kyligence 在服务客户的过程中发现,由于一些中小型企业的 IT 管理人员并非大数据专业出身,因此在维持大数据系统的时候,会逐渐发现难度越来越大。很多大的企业经过一两年的数据治理之后大概会到 Muddy DW(混乱的数据仓库)这么一个阶段,其数仓中有非常多的表,而且原始数据可能只有几千张表,但各部门、各组织都非常有欲望地生产自己的数据指标,就会形成几百倍的放大。有的客户原始表经过宽表、聚合表,分析表等的加工处理以后甚至可以达到百万级别的表。这不仅会造成了数字口径不统一,拖慢了企业的决策,更是耗费了大量的 IT 资源。

 


(图片来源:Kyligence)

 

这种情况下,我们就需要改造它,在数据的入口保持不变的情况下,将提取指标的过程标准化,到接近服务再给到一线业务自由度再放开,所以这个过程在数据处理的路径上是收敛的,大家可以从面积上直观感受到背后所节省掉的 IT 的资源是非常可观的,从整个企业对数字指标化运营的统一逻辑来说也有一个很清晰的抓手。

 


 (图片来源:Kyligence)

 

另一方面,Kyligence 核心的能力是来自于多维数据库乃至 OLAP 的能力,所以其本质可以说是一个管理系统,即使客户指标完全存在一个数据集里面,包括度量和维度,再往上就是指标的平台本身,可实现自然的过渡。Kyligence 联合创始人兼 CEO 韩卿表示指标中台有助于解决企业管理上的挑战:“任何指标平台一定是一个管理系统,例如不同部门指标不统一、指标过时等等,都属于管理问题。”

 


Kyligence 指标中台解决方案

 

在 Kyligence 解决方案中,提供了指标管理引擎和指标计算查询引擎两大核心组件,该方案可以部署在任何分布式存储和计算环境下,比如像公有云环境、私有云、大数据平台等等,并支持与底层各类数据源实现对接,从而以此助力企业以指标为中心,构建整个数字化体系建设的方法论,建立数据管理共识,最终服务于企业管理目标。同时,企业在落地指标中台后,可以实现“边使用,边治理”,不断挖掘数据的价值。

 

指标中台的实施效果

 

众所周知,银行业一直走在信息化、数字化的前沿。近年来众多银行都在大力投入建设新型指标平台来实现口径统一的、自上而下的业务驱动的指标体系,实现数据赋能一线业务,全面推动银行数字化经营。

 

韩卿认为金融行业跟其他行业有一个不太一样的地方,在于金融行业整个 IT 建设相对比较成熟,如果完全按照过去整套的数仓理论进行构建的话,例如从整个原始数据到 ODS 到 ETL ,到数据仓库,到 BI 端等等,经过发展论证,这将不可避免带来数据沼泽或者说是混乱的状态。也就是说,口径不一致这方面的问题变得更加突出了。以前是没数据,现在是数据太多,需要通过指标的抓手去进行底层的梳理和相应的规整等,去做整个的数据治理来去降本增效。

 

例如自某股份制银行推动集团数字化战略以来,每个 BU 都在搞自己的数字化经营平台,导致数据需求爆增。同时,烟囱式建设导致口径不一,还带来了数据治理和人力成本等等的痛点。当 BI 平台报表就有 7000 多张,为了各类数据应用手工开发的汇总表高达 1 万多张的时候,随着数据需求的爆发,这些数据表、ETL 作业、BI 报表的开发维护工作量非常巨大,传统数据应用模式根本就无法持续。

 


(图片来源:Kyligence)

 

因此,经过分析并结合业界的经验教训,该银行提出了指标治理切入,通过指标治理推动数据治理,降低用户的用数门槛,从而赋能银行的数字化经营。在这次指标治理的思路当中,治理的重要抓手就是建设新型指标平台。在指标管理系统当中,基于维度模型,通过统一的指标定义派生、衍生,并结合全行规范化的指标需求管理,实现指标口径的统一。而指标的加工、计算以及查询,利用 Kyligence 的方案,基于 SQL 模版,自动进行智能建模,并完成指标的汇总、加工和计算。通过建设指标平台,将大量的指标需求转换为指标及指标看板的开发方式,降低业务用户制作报表的门槛与难度。

 

据悉,目前该平台的日均访问用户量已经达到了 5000 以上,页面查询访问量高达 20 万以上,尤其是指标数量,已经高达 1.1 万,其中大部分是用户自己派生和衍生出来的自定义指标。新的指标应用模式,使 50% 的报表需求可以基于指标和指标看板来支撑,同时还将 ETL 任务减少了 30% 以上。通过指标平台的建设,能够帮助该银行推动数据治理,基于指标平台将企业数据资产实现了广泛的共享。

 

2022-03-22 15:039550

评论 2 条评论

发布
用户头像
airbyte 反向ETL了解一下
2022-09-14 11:03 · 浙江
回复
用户头像
Kyligence构建引擎/查询引擎 开源吗
2022-03-28 16:27
回复
没有更多了
发现更多内容

架构师视角 | 分布式缓存如何选择 ?

Java架构师迁哥

区块链防伪溯源平台开发解决方案

t13823115967

区块链+ 区块链产品溯源

分布式搜索引擎Elasticsearch的架构分析

vivo互联网技术

elasticsearch 分布式 分布式搜索引擎

软件开发中的防呆方法总结

张明云

DevOps 软件开发 技术架构 防呆 模式

《程序员数学:使用Python进行3D图形,机器学习和仿真》PDF免费下载

计算机与AI

Python 学习 数学

甲方日常 63

句子

工作 随笔杂谈 日常

系统稳定性建设实践总结

架构精进之路

系统架构 自我思考 系统稳定性

大型团队实践敏捷开发管理的挑战与应对

万事ONES

敏捷开发 研发管理 敏捷开发管理 开发管理

美女面试官问我:说说你对序列化的理解

田维常

序列化

让战略不再”空虚“的战略描述

Alan

战略思考 战略

架构师训练营第十一周命题作业

一马行千里

极客大学架构师训练营 命题作业

话题讨论 | Vue凭什么成为2020的一匹黑马?

黑马腾云

话题讨论

架构师训练营第三周学习总结

Geek_xq

福利 | 这些网站有免费代理IP!

前嗅大数据

大数据 代理IP 网站反爬 免费代理ip 封ip

Spock单元测试框架实战指南三 - f esle 多分支场景测试

Java老k

单元测试 spock

自营电商渠道转化率的简单设计思路

boshi

推广

智慧公安大屏可视化决策系统搭建

t13823115967

智慧公安 智慧大屏可视化

蕃茄田宋姝梦:科技赋能时代,儿童在线艺术教育的思考

ZEGO即构

程序员有必要读研吗?

Java架构师迁哥

话题讨论 | 用好VSCode这13款插件和8个快捷键,工作效率提升10倍

程序员柠檬

话题讨论

计算机网络基础

Minar Kotonoha

node.js 大前端 计算机网络 HTTP

架构师训练营第十一周学习笔记

一马行千里

学习 极客大学架构师训练营

DeFi质押挖矿APP系统开发|DeFi质押挖矿软件开发

系统开发

我摊牌了,大厂面试Linux就这5个问题

艾小仙

Java Linux 面试 大厂

苦修月余,斩获bigo、腾讯offer,面经奉上!

艾小仙

Java 腾讯 面试 腾讯大厂

《图解数据结构》.pdf

田维常

数据结构

LeetCode题解:45. 跳跃游戏 II,贪心正向查找,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

传销组织的CTO | 法庭上的CTO(4)

赵新龙

CTO 传销 法庭上的CTO

JVM垃圾回收?全面详细安排!

程序员的时光

JVM GC

vivo官方商城架构演进之路

vivo互联网技术

中台 架构演进 服务化

K8s 将弃用 Docker;TypeScript 超越 C++ 成第四大语言

京东科技开发者

程序人生

将ETL任务减少30%,指标中台究竟是什么?_大数据_Tina_InfoQ精选文章