写点什么

数据中台是怎样炼成的?

  • 2019-10-29
  • 本文字数:3843 字

    阅读完需:约 13 分钟

数据中台是怎样炼成的?

导语:今年,看到很多媒体判定数据中台”行业“有千亿万亿的市场,以及会出现超越 BAT 的企业,但是少有真正能讲清楚什么是数据中台的。讨论技术的本质却是 InfoQ 的优势,我们采访了多家企业来探讨“数据中台”的本质和企业实践,数澜就是其中的一家。我们对数据中台的探讨,有一系列的文章呈现,本文是其中一篇。


“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。


数据中台这场风,一下子就席卷了大数据行业的各个角落。


很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分。这场风里,每一家企业的数据中台都是独一无二的,基于数据平台之上,辅之以方法论+最佳实践打造而成,这与不同的企业自身的数字化程度以及行业属性、企业特性相关,主要有三类:


第一类是做大数据营销、SaaS 的企业,这类企业主要是在做垂直的数据应用,解决特定业务数据使用问题,对非领域内的不提供解决方案;


第二类是数据库、开发平台类企业,这类企业并不关注业务;


第三类属于咨询、外包软件类企业,可以根据需求定制开发。


数澜认为前面的这三类企业定位均不相同,都只实现了中台的部分能力,导致三者都不可能建设出企业级数据中台。


数澜科技的创始团队,主要就是来自于阿里巴巴的数据中台部门。其创始人风剑(甘云锋)曾是阿里集团数据平台事业部数据服务部负责人,是一手建立起阿里数据中台的骨干人物。

企业级数据中台建设

中国企业的大数据发展大概经历了三个阶段。第一阶段,是 2000 年之后的企业内部信息化,中国许多大型企业开启了一波以数据库、ERP 为主的底层 IT 建设,进行了初步的“业务数据化”建设。第二阶段,是 2004 年到 2012 年,随着 BAT 纷纷上市,互联网经济的崛起,让数据思维深入各行各业,数据量慢慢壮大。第三阶段是 2013 年之后,移动互联网的发展,一些金融、零售等大型企业响应“互联网+”概念,走向线上线下深度融合,这时数据服务的形式开始增多,业务维度更加复杂。


将数据用起来,随时随地分析企业情况进行精细化运营,企业需要打通老一代 ERP、数据库等 IT 系统,同时还需要应对业务增多且快速变动的情况。而且企业之间、各部门之间的数据往往都没有“共享”,运用不同的开发队伍开发平台和工具的不统一,这时,数据服务往往就是一个个从各平台伸出的数据“烟囱”。但这些传统企业有数据积累,已经有了比较好的信息化基础,也有数据应用的场景,这些业务需要数据服务。


数澜的数据中台的核心市场需求正在于此,为传统企业提供企业级数据中台服务。


在传统企业市场里,数澜完成了“百果园”、“中信云网”、“万科”等企业的项目。比如百果园是大型零售行业,用数据中台为消费者打造个性化定制服务。而在大型央企中信集团项目中,更侧重于顶层设计和整体推进,赋能集团数字化转型。


在针对企业级数据中台的服务过程中,数澜给数据中台的下了个定义:”数据中台是一套可持续的让企业的数据用起来的机制,是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有型的产品和实施方法论支撑,构建一套持续不断地把数据变成资产并服务于业务的机制。“。


同时,数澜给自己的数据中台的定位是:”数据库往上一点,ERP 等应用往下一点“。数据平台是数据中台的技术支撑,是中台的骨架,数澜的一站式大数据平台”数栖平台“就是”数据中台“的一个承载工具,在存储计算之上提供数据采集、数据开发、数据管理、数据服务,最终的数据服务要对接到业务系统或者数据产品。ERP 等应用软件产生的数据存储在数据库,通过数栖平台采集数据库中的数据,经过平台内部的加工、管理、服务化,再对接到 ERP 等应用系统。


数据中台是一种理念,强调的是一种复用能力,数栖平台就是数澜建立的一套提供公共服务的“模块”,数澜实施的项目有很多是尽量去复用已有的这个平台。

数据中台建设方法论

数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关的工作,数澜在企业数据中台建设具体实践中的一些经验,主要归纳成 5 个关键步骤来完成这个建设过程。



第一步,现状


  1. 要了解业务现状:梳理业务过程及核心业务指标、知晓现有数据应用情况,还要找到可能的创新点。项目会选择最有可能的业务价值点,作为中台建设的验证,来看数据赋能业务的结果。

  2. 要盘点现有数据现状:现有什么数据、还需要增加什么数据。比如说企业的行为日志、机器日志都是资产。

  3. 要调研现有的 IT 现状:比如采用的什么数据库、数据量、数据字段和更新周期等,以便后续更好地设计技术架构。因为有一些信息系统非常封闭,如果数据不开放,拿不到一手数据,在 DT 时代就难以推进数据中台战略。

  4. 要了解现有组织架构:以怎样的组织形态来保证中台的顺利推进,协助者是谁,服务对象又是谁,以及一些相应配合机制,这些都是上数据中台之前需要梳理的。


第二步,定架构。


根据现状形成整体的规划蓝图,形成技术产品、数据体系、服务方式以及运营重点等相关的方案,梳理确立各块架构。企业信息架构经常谈到业务架构、技术架构、应用架构和数据架构都需要在这个阶段进行确认,这 4 个架构具体介绍如下:


  • 业务架构:如何保障数据中台能够适用于企业的业务运管模型和流程体系?

  • 技术架构:如何根据业务架构近远期规划,对数据的存储和计算进行统一的选型?

  • 应用架构:特指数据中台应用架构,如何为后面几个关键步骤的内容提供平台工具?

  • 组织架构:为保证中台项目的顺利落地,如何实现整体组织保障?


第三步,建资产。


结合数据架构的整体设计,通过数据资产体系建设方法,帮助企业构建既符合场景需求又满足数据架构要求的数据资产体系并实施落地。这个步骤涉及数据汇聚、数仓建设、标签体系建设以及应用数据建设,其中最关键的是标签体系建设过程。所谓标签体系是面向具体对象构建的全维度数据标签,通过标签体系可以方便支撑应用,大数据的核心魅力点和服务能力主要就体现在标签体系的服务能力。数据资产分为四层:贴源数据层、统一数仓层、标签数据层、应用数据层。如下图所示。



第四步,用数据。


与直接调用不同,数据中台绝大多数是通过服务调用方式提供的。服务的建设方主要是数据技术团队,他们把建好了数据体系利用数据引擎能力,生成数据服务 API,再发布到数据服务市场。在服务过程中,数据安全是不得不考虑的问题,哪些人能看到什么数字资产,能选择什么类型的服务都是需要严格审核的。


第五步,数据运营。  


整个数据中台的建设、使用不是一下子完成的,绝对不是一个项目,是一个运营迭代的过程,用“看、选、用、治、评”的过程来保障整个数据中台可以持续运营、持续迭代,形成一整套闭环的机制。企业通过多个组织之间的配合推进,会逐步形成企业特有的数据文化和认知,这是企业在数字化转型中非常重要但很难跨越的点。

经验总结

在数澜实施众多项目过程中,也曾总结了一些踩过的坑。数澜江敏曾在TGO活动上讲到,数据最核心的能力即数据的连接,就是把一些看似不相关的数据连接起来之后,在解决问题时,就会有更多的视角去发现问题。现在很多企业不知道如何利用数据,他表示企业对数据认知不清晰以及提不出数据应用场景的需求的原因, 造成了”坐着金山啃馒头的现状。每个公司都有一座矿山,有很多有价值的数据,但是这些价值一直没有发挥出来。我们一位客户曾说过,他们的业务能力很强,团队抢了很多面粉回来,但最终没有把面粉变成面包而是坏掉了。“


就算知道了数据的价值,也会存在其他的比如”数据墙“保护的问题。数澜天湛在回答在项目实施中遇到最大的困难是什么时,他这样告诉我们:”中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地,是个漫长的过程,所以实施数据中台时,最困难的地方就是需要推动力。比如在中国有各种’数据墙‘,大家都觉得数据有价值,也没有发挥这个价值,但是对数据又保护的很紧。为了解决某一块的业务,需要去拿多个部门的数据,有时甚至涉及到几十个部门,最初可能马上得到口头上的应允,但最后真正拿到数据却很困难,这时候推动力决定了整个项目的进展。“


数澜认为大数据目前还处于起步阶段,很多时候应用场景是需要不断探索、验证和优化。大数据场景化应用最终能达到的效果如何,很多时候企业心里是没谱的,除非行业已经有现成的实践案例。所以最好的办法就是先实施一个数据中台,取得阶段性成果,不断的去验证和优化,逐渐支撑越来越多的应用,甚至未来的发展到参与企业所有的业务。


所以数据中台一定是一个运营迭代的过程,通过业务闭环不断完善,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。数澜认为”建设数据中台都是一个练习内功的过程,如果企业想在某个节点上快速做出结果,这并不是一个好的数据中台落地方式“。


采访嘉宾


付登坡(花名:天湛),数澜科技联合创始人、合伙人,地产事业部总经理。原阿⾥巴巴集团⼤数据科学家,10 多年⼤数据行业经验,擅长数据建模、海量数据产品架构与实现。曾任职阿⾥巴巴集团,先后负责 SEM 效果优化、日志分析引擎、TCIF 标签 体系、DMP 平台等大数据项⽬设计与实施。2015 年以创始 人身份组建阿⾥里巴巴集团的“11 维数据创新工作室”,探索数据商业化。2016 年 6⽉离职,联合创办数澜科技。2019 年将在数据中台多年经验沉淀融合,以第一作者身份撰写《数据中台-让企业的数据用起来》一书。


2019-10-29 08:002859

评论

发布
暂无评论
发现更多内容

数字货币合约交易系统开发内容(源码)

架构营模块一作业

GTiger

架构实战营

Java 面试八股文之数据库篇(三)

Dobbykim

【Flutter 专题】23 图解自定义 Dialog 对话框

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

官方线索|#1024小鹏汽车科技日#如约而至!关于未来出行,你有什么想象?

搬砖人

1024我在现场

ARouter 在多 module 项目中实战

逆锋起笔

android arouter 路由框架 阿里arouter

docker 系列:实践工具

yuexin_tech

模块一的命题作业

月影之臣

架构实战营

pygame 二次 hello world 项目感知

梦想橡皮擦

10月月更

Vue进阶(幺肆叁):如何用绝对定位(position:absolute)完美定位布局及其注意事项

No Silver Bullet

Vue 绝对定位 10月月更

技术分析| WebRTC开源服务器商业化过程中遇到的问题及挑战

anyRTC开发者

开源 音视频 WebRTC 服务器 实时通信

代码质量管理:SonarQube + Jenkins Pipeline配置

看山

DevOps 10月月更

数字货币期权交易软件系统开发内容(源码搭建)

百度商业托管页系统高可用建设方法和实践

百度Geek说

架构 高可用

第一周作业

沐风

Prometheus 查询操作符(四) 示例合集

耳东@Erdong

Prometheus 10月月更

Go 中如何写注释

baiyutang

golang 10月月更

理解 std::declval 和 decltype

hedzr

算法 元编程 C++11 c++17 纯虚函数

永续合约APP系统开发简介(搭建)

数字货币合约交易APP系统开发介绍(案例)

👊 【Spring技术特性】采用protostuff和kryo高性能序列化框架实现RestTemplate的序列化组件

洛神灬殇

spring 序列化协议 序列化机制 10月月更

期货合约系统APP开发简介(搭建)

区块链的监管架构基本成型

CECBC

对自己深度学习方向的论文有idea,可是工程实践能力跟不上,实验搞不定怎么办?

Giant

自然语言处理 机器学习 深度学习 算法 论文

ZooKeeper分布式配置——看这篇就够了

牧小农

zookeeper 分布式配置

【LeetCode】加一Java题解

Albert

算法 LeetCode 10月月更

持续测试、持续集成、持续交付、持续部署和DevOps

FunTester

持续集成 持续交付 持续测试 FunTester 持续构建

音视频:播放器与H.265播放探索

程序员架构进阶

视频流 播放器 H.265 10月月更

永续合约软件系统开发源码搭建

从零到熟悉,带你掌握Python len() 函数的使用

华为云开发者联盟

Python 数据结构 函数 内置函数 len()

Shopee ClickHouse 冷热数据分离存储架构与实践

Shopee技术团队

数据库 后端 Clickhouse 存储 S3

数据中台是怎样炼成的?_数据库_Tina_InfoQ精选文章