低代码到底是不是行业毒瘤?一线大厂怎么做的?戳此了解>>> 了解详情
写点什么

快看漫画屈世超:中小公司也可建设小而美的数据中台

2020 年 10 月 29 日

快看漫画屈世超:中小公司也可建设小而美的数据中台

之前听过不少公司分享数据中台建设的话题,从数据中台到算法中台、再到 AI 中台等等,在特定的业务场景下对特定功能进行复用。我们听到的更多的是大公司的实践,其实中台不仅仅是大公司的玩具,中小企业也有根据自身需求建设数据中台的诉求。


在策划中台建设专题的之初,我就想邀请业界中小型企业来讲讲自身的中台搭建过程,也许他们没有足够的研发人员,也许他们没有太多的业务线,但是中台思路一定是适合他们的业务发展的。而这样的内容更符合同体量的公司参考样本。


很快,快看漫画进入了我的视野,并邀请快看漫画产品研发部/数据开发负责人屈世超老师来 QCon 会议上演讲,也借此机会采访了数据中台等相关的问题。


屈老师在快看漫画工作 4 年多,一直与数据打交道,在这几年亲历了快看漫画数据平台、数据处理技术随着业务发展,走过的 3 个阶段。第一阶段是数据开发起步期,快看漫画基于云厂商的大数据托管集群进行数据部署,其特点是工具受限,平台会遇到性能和稳定性问题;第二阶段是自建数据平台阶段,快看漫画基于高性能云物理机搭建 CDH 集群,支撑各个业务的数据需求;第三阶段是数据中台化,也是现阶段正在做的演进,其特点是业务线数量和业务需求陡增,要求数据平台能高效支持业务的规模化扩张。


快看的业务有自身的特点,这种特点反馈到技术上,也是很直观的。


快看漫画的六条业务线在需求层面、后端和存储技术上选型上存在较大差异。例如,有的业务线需要采集 Nginx 原始日志,有的业务线需要采集落地的业务日志,有的业务后端甚至自建了 ELK 系统。在每个业务线的数据开发中,需要从业务需求出发,兼容后端和存储技术,灵活选用开源技术方案。当然,技术和框架的多样性,给数据开发带来学习成本和切换成本,会降低开发效率。


什么情况下需要建设数据中台?

实际上,当需要大规模的数据应用时 (搜索 / 推荐 /BI 报表…),才需要构建数据中台。因为建设数据中台的投入太大了。快看漫画是如何定义数据中台的呢?


屈世超说,数据中台,区别于前台和后台。前台是具体需求的呈现样式,后台是底层数据能力和平台工具,而中台则对底层数据能力和平台工具做一定程度的模块化,提供便捷的通用接口或能力,从而支撑业务的快速规模化扩张。


除了完善的底层数据和平台工具,数据中台还需要具备通用、易用的特性,要求技术团队基于多个业务抽象出公共的基础需求模块,并设计和落地能够承接业务应用的接口和功能。


一般来说,中台承接的业务量都会比较大,一是业务线数量多,二是每个业务的规模也较大。


快看漫画小而美的数据中台

为了让精细化运营能够高频的迭代,快速地利用底层大数据的支持,这就需要数据中台提供强有力的支持。既然要基于业务需求迭代开发一套小而美的数据中台方案,那如何规划数据中台架构?快看漫画的数据中台打通了全数据流程。包括:数据采集和同步、自助数仓建模和 ETL、离线调度管理、实时任务一体式管理、BI 可视化和自助查询分析,以及数据的治理体系。


  • 在数据总线模块,Web 化管理配置,兼容多种数据源,统一接入规范,集成元数据管理、调度和实时任务管理系统;

  • 在自助数仓建设模块,Web 化便捷配置,集成调度,简化 ETL 上手开发成本;

  • 在实时任务管理模块,同样通过 Web 后台集成任务部署、管理、监控功能;


小而美的数据中台,“小”和“美”各体现在哪些方面?屈老师介绍说,”小“指的是轻快,快看漫画的目标是用最小的开发成本,搭建起最高效复用的中台系统;”美“指的设计优雅,简单即美,用 Web 化来搭建起最简化步骤的开发流程。


在整个数据中台化过程中,存在很多痛点,正如屈老师所说,推动数据中台化主要有两方面的压力,一是平衡业务数据开发需求和中台化建设开发的优先级;二是跳出数据开发视角去全局思考跨业务的开发机制。


在中台建设中,技术选型和工具使用上也有一些经验分享给大家。大数据领域,大家普遍会遇到的一个问题是:为了解决不同场景的采集、ETL、分析可视化需求,需要使用不同的开源框架,导致各种开源框架林立,增加了维护和迁移成本。基于开源框架,快看漫画的中台建设主要做了上层封装、统一使用流程和规范,提升易用性。


技术团队封装统一了数据总线、ETL 开发和调度模块、OLAP 分析模块、数据查询模块。目标是让各个模块连通形成闭环,并提升整体的易用性和使用效率。


快看漫画数据中台的具体实践

数据中台需求源于业务,也实践于业务开发。快看漫画的中台实践主要分为两个阶段。


第一阶段,由于业务扩张、运营精细化导致数据需求极速增多,在开发效率和数据复用上存在较多问题,快看漫画研发团队开始了数据中台化的调研和建设,这个阶段的工作内容以需求收集归类、抽象为主,逐渐演化出了当前的数据中台架构;


第二阶段,主要是做中台模块化的拆解开发和推广应用,这个阶段要注意两个陷阱,一是避免自嗨式的闭门造车,要贴近业务实际使用习惯,这样才容易推广应用。二是要统一数据接入、清洗规范,让数据最大程度的复用起来。


中台落地只是它使命的开始,如何评估数据中台的收益呢?屈世超老师说,评估数据中台的指标是业务开发效率和成本,数据中台能显著减少重复的开发成本,提升开发效率。


收益主要分两个方面,一是降低了开发门槛,让 PM、数据分析师、业务后台开发都能够自主选择合适的数据开发流程;二是提升了数据的复用能力,通过规范数据接入、清洗等规范,减少了重复开发和冗余存储。


个人和团队的收获

在数据中台规划/落地过程中,对于个人,对于团队,都有哪些收获和思考?


对于个人而言,屈老师说,最大的收获是能够站在公司全局视角去思考业务、人和数据平台的关系,梳理清晰了三者的供需关系。


对于业务团队来说,尤其是业务 PM、数据分析师和后台开发,他们有了可快速上手的平台工具去更快速的响应业务数据需求,解放了数据开发侧的需求压力;


从更广义的数据团队视角看,有了公共统一的数据规范,让公共数据在各个业务之间有了更高的复用性,提高了研发效能。


最后,屈老师团队正在招聘大数据架构师、数仓工程师、数据分析师等技术专家,以及客户端 &服务端架构师/工程师、运维开发工程师等,感兴趣可点击官网 https://kkworld.zhiye.com/home


技术会议推荐:

阔别半年之久,InfoQ 线下技术大会正式回归!将在 2020 年 12 月份和 2021 年 1 月份启动三站 QCon 全球软件开发大会(深圳、上海和北京)。根据各个地区属性,上海站设置了智能金融、5G 应用场景、去中台化、业务架构等专题。感兴趣的可以点击日程 https://qcon.infoq.cn/2020/shanghai/schedule


2020 年 10 月 29 日 10:311514

评论 3 条评论

发布
用户头像
一点构建数据中台的细节没有,讲的都是大家都知道的东西。
2020 年 10 月 29 日 20:40
回复
用户头像
全文就说了自己有多nb,其余都是所有人都知道的东西
2020 年 10 月 29 日 13:43
回复
用户头像
没收获到有用的点。
2020 年 10 月 29 日 12:08
回复
没有更多了
发现更多内容

重磅推出:第14份年度敏捷状态报告(最新2020)

Bob Jiang

敏捷 调查报告 state of agile

csapp-chapter1

卓丁

深入理解计算机系统 csapp

【译文】为什么说Rust是机器人技术的未来

袁承兴

rust 机器人 嵌入式

架构师必备的ToB产品交付之双轮驱动思维模型

常平

产品 极客大学架构师训练营

N皇后问题之位运算解法

孙苏勇

算法 DFS 位运算

做一个纸上谈兵的项目经理

escray

GitHub上10个不可错过的另类有趣项目

码农神说

GitHub 程序员人生 开源项目

【大厂面试03期】MySQL是怎么解决幻读问题的?

NotFound9

MySQL 数据库 编程 架构

路径依赖 - 偶然决策导致的依赖。

石云升

思维模型 路径依赖 网络效应 沉没成本 价值网依赖

除了公关,我还能为公司做点什么?(系列1)

邓瑞恒Ryan

学习 个人成长 自我管理 成长 职业成长

为什么你成不了「超级个体」?

非著名程序员

程序员 互联网 提升认知 认知提升

如何让解决无法访问 GitHub 的问题?

JackTian

GitHub

自定义 SpringBootStarter

lee

React之Context源码分析与实践

费马

源码分析 React useContext Context React-Router

白天写代码,晚上摆地摊!9年前摆地摊学会了这些道理...

王磊

ARTS-WEEK02

lee

分布式事务 - 三种常见的解决方案

Java收录阁

分布式事务

多来点胜利,对冲颓丧

zhoo299

成长 备忘

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(五)

图雀社区

Vue Node

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(六)

图雀社区

node.js Vue

csapp-chapter2

卓丁

深入理解计算机系统 csapp

MyBatis启动之XMLConfigBuilder解析配置文件(二)

ytao

后端 mybatis

深入理解JVM垃圾回收机制 - 何为垃圾?

WANDEFOUR

深入理解JVM 垃圾回收机制

Android工程架构演进及康威定律

石头

愚蠢写作术(2):怎么让你的文章变得冷冰冰

史方远

学习 个人成长 写作

中台上线半年,我总结出了“七宗罪”

夜来妖

中台 企业中台 后台开发 业务中台 后台

源码分析 | 像盗墓一样分析Spring是怎么初始化xml并注册bean的

小傅哥

源码分析 小傅哥 spring源码 bean注入过程

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(三)

图雀社区

vue.js Vue Node

过滤器 和 拦截器 6个区别,别再傻傻分不清了

程序员内点事

Java

从零到部署:用 Vue 和 Express 实现迷你全栈电商应用(四)

图雀社区

Vue Node

大厂经验(1):一套Web自动曝光埋点技术方案

DeeperMan

大数据 数据采集

2021 ThoughtWorks 技术雷达峰会

2021 ThoughtWorks 技术雷达峰会

快看漫画屈世超:中小公司也可建设小而美的数据中台-InfoQ