速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

将 ETL 任务减少 30%,指标中台究竟是什么?

  • 2022-03-22
  • 本文字数:3343 字

    阅读完需:约 11 分钟

将ETL任务减少30%,指标中台究竟是什么?

经过一二十年的 IT 建设,很多企业已经从“没有数据”发展到了“数据太多”的阶段。如今,各行各业正在由过去粗放式的增长向数据支撑的精细化运营转型,但随之而来的是 ETL 任务的激剧膨胀,整个数仓可能充斥着几百万张表。无数个 ETL 任务的重复性工作,带来的不仅是存储问题,不断被消耗的数据集群资源使大家面临着更加严峻的挑战,维持这些数据应用模式,传统方法已经捉襟见肘。

 

为什么传统方法过时了

 

自“数仓”在 1980 年开始被提出来到现在,数据基础架构已经经历了不同的变化,从集中式向着分布式演进。

 


(图片来源:Kyligence)

 

集中式的基础架构演进了几轮,但都是把业务系统的数据从各个地方汇集过来,规整完成、标准化完成,再存起来放在一个地方。然而在过去的一到两年,行业开始出现了一个更大的变化——尤其是去中心化,它已经成为了当下最热且发展最快的基础架构变化,在整个数仓的方向上,去中心化是如今云和 SaaS 时代的未来。去中心化意味着不再按原来的数据仓库的方式收集数据,而是能够连接到不同的数据源,实时地把数据汇过来,去服务一定的数据服务的应用。

 


(图片来源:Kyligence)

 

在过去企业构建 IT 基础设施的过程中,逐渐形成了各种烟囱式的数据设施,也给大家带来了数据孤岛的问题。数据上云、湖仓一体化都可以很好地解决了数据孤岛的问题,让企业内部的指标管理更统一,数据接口更标准,分析更自助。但一线业务和数据分析人员面临着一些其它方面的挑战:各企业的数字化建设在这一二十年里有了初步的成果,但是数据量巨大。在过去的几年里面,企业 CIO 们是非常焦虑的。很简单,如果你使用了一个中等规模以上的比如说 BI 或者是数字仓库的技术栈,你一定有几百到几千张的报表,每张报表如果有十个以上的指标,那就意味着有几万甚至几十万的业务指标,这些口径是不是统一?这些数据是不是在被人使用?这些相应的价值其实已经非常复杂了。

 


(图片来源:Kyligence)

 

更可怕的是整个的过程会让 ETL 任务和中间进行大量的膨胀。这不仅仅只是存储的问题,它带来更大的挑战在于,它有无数的 ETL 的任务其实在不断地做着重复性的工作,不断地消耗整个数据集群的资源。另外还存在口径不一致的问题,当用这些数据做一个管理决策的时候,需要有数据来参考,但各部门数据来源又可能存在分歧,比如这个部门说自己是从 Power BI 里看到的,另外一个部门说是从数仓里面拿到的数据,这就不能帮助企业做出高效的决策。

 

而每一张报表背后每运行一次,都可能涉及到几百甚至几千的费用,这就需要用管理的方法把这些报表的数量控制下来。所以企业需要进行数据治理,从几十万张报表中去掉重复、不准确的部分,与企业业务目标口径不对齐的部分,将剩下的做一些高度的统一,甚至在部门的生产线上拉齐认知。

 

这种转变,在 Kyligence 春季论坛活动的采访中,Kyligence CTO 李扬说:“这有点像 20 年前,大家刚切换到 ERP 电子化,从一些手动的办公能力上升到电子化的办公能力。那个时候就有一个 Business Process Re-engineering(BPR,企业流程再造)的说法,就是说你要上这个系统先得梳理自己的业务流程。业务流程不梳理好这个系统上也上不去,也没法提升管理能力。到现在,去中心化的发展后,一样也需要先将企业的指标,数字化运营的思路理清楚。如果讲不清业务目标、过程指标、结果指标,那就不知道拿什么追踪,拿什么来做数字化的管理。”

 

“这时发展指标中台就能帮助用户解决这个问题,最终出口可能还是 BI,但可以精准地以统一的口径快速帮管理者做出决策。从我们的实践来看,当一个企业需要进行管理改革或者业务变化的时候,指标中台就能反映出这个变化过程和结果,进而驱动整个公司的业务发展。这也是我们说的一个趋势点:以指标为核心进行公司的指标变革。”

 

指标中台能改善什么

 

过去的几年里,很多企业都在投入建设口径统一、自上而下的新型指标平台,来有效衡量业务经营和发展情况,真正实现数据赋能一线业务。Kyligence 在服务客户的过程中发现,由于一些中小型企业的 IT 管理人员并非大数据专业出身,因此在维持大数据系统的时候,会逐渐发现难度越来越大。很多大的企业经过一两年的数据治理之后大概会到 Muddy DW(混乱的数据仓库)这么一个阶段,其数仓中有非常多的表,而且原始数据可能只有几千张表,但各部门、各组织都非常有欲望地生产自己的数据指标,就会形成几百倍的放大。有的客户原始表经过宽表、聚合表,分析表等的加工处理以后甚至可以达到百万级别的表。这不仅会造成了数字口径不统一,拖慢了企业的决策,更是耗费了大量的 IT 资源。

 


(图片来源:Kyligence)

 

这种情况下,我们就需要改造它,在数据的入口保持不变的情况下,将提取指标的过程标准化,到接近服务再给到一线业务自由度再放开,所以这个过程在数据处理的路径上是收敛的,大家可以从面积上直观感受到背后所节省掉的 IT 的资源是非常可观的,从整个企业对数字指标化运营的统一逻辑来说也有一个很清晰的抓手。

 


 (图片来源:Kyligence)

 

另一方面,Kyligence 核心的能力是来自于多维数据库乃至 OLAP 的能力,所以其本质可以说是一个管理系统,即使客户指标完全存在一个数据集里面,包括度量和维度,再往上就是指标的平台本身,可实现自然的过渡。Kyligence 联合创始人兼 CEO 韩卿表示指标中台有助于解决企业管理上的挑战:“任何指标平台一定是一个管理系统,例如不同部门指标不统一、指标过时等等,都属于管理问题。”

 


Kyligence 指标中台解决方案

 

在 Kyligence 解决方案中,提供了指标管理引擎和指标计算查询引擎两大核心组件,该方案可以部署在任何分布式存储和计算环境下,比如像公有云环境、私有云、大数据平台等等,并支持与底层各类数据源实现对接,从而以此助力企业以指标为中心,构建整个数字化体系建设的方法论,建立数据管理共识,最终服务于企业管理目标。同时,企业在落地指标中台后,可以实现“边使用,边治理”,不断挖掘数据的价值。

 

指标中台的实施效果

 

众所周知,银行业一直走在信息化、数字化的前沿。近年来众多银行都在大力投入建设新型指标平台来实现口径统一的、自上而下的业务驱动的指标体系,实现数据赋能一线业务,全面推动银行数字化经营。

 

韩卿认为金融行业跟其他行业有一个不太一样的地方,在于金融行业整个 IT 建设相对比较成熟,如果完全按照过去整套的数仓理论进行构建的话,例如从整个原始数据到 ODS 到 ETL ,到数据仓库,到 BI 端等等,经过发展论证,这将不可避免带来数据沼泽或者说是混乱的状态。也就是说,口径不一致这方面的问题变得更加突出了。以前是没数据,现在是数据太多,需要通过指标的抓手去进行底层的梳理和相应的规整等,去做整个的数据治理来去降本增效。

 

例如自某股份制银行推动集团数字化战略以来,每个 BU 都在搞自己的数字化经营平台,导致数据需求爆增。同时,烟囱式建设导致口径不一,还带来了数据治理和人力成本等等的痛点。当 BI 平台报表就有 7000 多张,为了各类数据应用手工开发的汇总表高达 1 万多张的时候,随着数据需求的爆发,这些数据表、ETL 作业、BI 报表的开发维护工作量非常巨大,传统数据应用模式根本就无法持续。

 


(图片来源:Kyligence)

 

因此,经过分析并结合业界的经验教训,该银行提出了指标治理切入,通过指标治理推动数据治理,降低用户的用数门槛,从而赋能银行的数字化经营。在这次指标治理的思路当中,治理的重要抓手就是建设新型指标平台。在指标管理系统当中,基于维度模型,通过统一的指标定义派生、衍生,并结合全行规范化的指标需求管理,实现指标口径的统一。而指标的加工、计算以及查询,利用 Kyligence 的方案,基于 SQL 模版,自动进行智能建模,并完成指标的汇总、加工和计算。通过建设指标平台,将大量的指标需求转换为指标及指标看板的开发方式,降低业务用户制作报表的门槛与难度。

 

据悉,目前该平台的日均访问用户量已经达到了 5000 以上,页面查询访问量高达 20 万以上,尤其是指标数量,已经高达 1.1 万,其中大部分是用户自己派生和衍生出来的自定义指标。新的指标应用模式,使 50% 的报表需求可以基于指标和指标看板来支撑,同时还将 ETL 任务减少了 30% 以上。通过指标平台的建设,能够帮助该银行推动数据治理,基于指标平台将企业数据资产实现了广泛的共享。

 

2022-03-22 15:039351

评论 2 条评论

发布
用户头像
airbyte 反向ETL了解一下
2022-09-14 11:03 · 浙江
回复
用户头像
Kyligence构建引擎/查询引擎 开源吗
2022-03-28 16:27
回复
没有更多了
发现更多内容

被忽视的问题:测试环境配置管理

老张

软件测试 测试环境治理

DeFi生态NFT流动性挖矿系统开发搭建

薇電13242772558

NFT DeFi流动性挖矿

LeetCode-168. Excel表列名称(java)

bug菌

LeetCode 7月月更

英特尔集成光电研究最新进展推动共封装光学和光互连技术进步

科技之家

【Unity UGUI】ScrollRect 动态缩放格子大小,自动定位到中间的格子

萧然🐳

游戏开发 Unity ScrollView 7月月更 UGUI

什么是低代码开发?

AIRIOT

低代码 物联网 低代码,项目开发

linux实战清理挖矿病毒kthreaddi

入门小站

Linux

在线文本行固定长度填充工具

入门小站

工具

能源行业的数字化“新”运维

博睿数据

AIOPS 智能运维 博睿数据 能源行业

字节跳动Dev Better技术沙龙成功举办,携手华泰分享Web研发效能提升经验

字节跳动终端技术

字节跳动 前端

输入的查询SQL语句,是如何执行的?

华为云开发者联盟

MySQL sql 开发 语句

激进技术派 vs 项目保守派的微服务架构之争

BoCloud博云

微服务 微服务架构 云原生 istio 服务网格

NBA赛事直播超清画质背后:阿里云视频云「窄带高清2.0」技术深度解读

阿里云CloudImagine

音视频 直播 视频编码

TCP两次挥手,你见过吗?那四次握手呢?

C++后台开发

网络编程 网络协议 TCP/IP 后端开发 C++开发

uni-app与uviewUI实现仿小米商城app(附源码)

优秀的李

小程序 uniapp 7月月更 uviewui

python小知识-python泛函数

AIWeker

Python python小知识 7月月更

在线SQL转Excel(xls/xlsx)工具

入门小站

工具

DataKit——真正的统一可观测性 Agent

观测云

整理混乱的头文件,我用include what you use

华为云开发者联盟

c++ 开发 C语言 技能

同事悄悄告诉我,飞书通知还能这样玩

Jianmu

自动化 建木CI 飞书通知 定时

LeaRun.Java快速开发平台 高效代码自动化生成

力软低代码开发平台

你可能不知道,我是如何将一个老系统的kafka消费者服务的性能提升近百倍的

Java全栈架构师

Java kafka 程序员 面试 架构设计

Nebula Importer 数据导入实践

NebulaGraph

图数据库 数据导入 Nebula Graph

一文掌握数仓中auto analyze的使用

华为云开发者联盟

数据库 sql 后端 analyze

华为云ModelArts的使用教程(附详细图解)

逝缘~

华为 华为云 7月月更

Python 入门指南之使用 Python 解释器

海拥(haiyong.site)

7月月更

五千字讲清楚团队自组织建设 | Liga 妙谈

LigaAI

团队管理 个人提升 敏捷开发管理 LigaAI 自组织协作

Numpy 的仿制 2

祖维

c slice Numpy

智捷云——元宇宙综合解决方案服务商

智捷云

区块链 元宇宙 智捷云 区块链技术开发

图像检索(image retrieval)

Geek_e369a5

图像搜索 图像检索

OPPO 小布预训练大模型揭秘:可大规模工业化应用的十亿级模型

OPPO小布助手

AI 智能助手 预训练模型 预训练

将ETL任务减少30%,指标中台究竟是什么?_大数据_Tina_InfoQ精选文章