之前听过不少公司分享数据中台建设的话题,从数据中台到算法中台、再到 AI 中台等等,在特定的业务场景下对特定功能进行复用。我们听到的更多的是大公司的实践,其实中台不仅仅是大公司的玩具,中小企业也有根据自身需求建设数据中台的诉求。
在策划中台建设专题的之初,我就想邀请业界中小型企业来讲讲自身的中台搭建过程,也许他们没有足够的研发人员,也许他们没有太多的业务线,但是中台思路一定是适合他们的业务发展的。而这样的内容更符合同体量的公司参考样本。
很快,快看漫画进入了我的视野,并邀请快看漫画产品研发部/数据开发负责人屈世超老师来 QCon 会议上演讲,也借此机会采访了数据中台等相关的问题。
屈老师在快看漫画工作 4 年多,一直与数据打交道,在这几年亲历了快看漫画数据平台、数据处理技术随着业务发展,走过的 3 个阶段。第一阶段是数据开发起步期,快看漫画基于云厂商的大数据托管集群进行数据部署,其特点是工具受限,平台会遇到性能和稳定性问题;第二阶段是自建数据平台阶段,快看漫画基于高性能云物理机搭建 CDH 集群,支撑各个业务的数据需求;第三阶段是数据中台化,也是现阶段正在做的演进,其特点是业务线数量和业务需求陡增,要求数据平台能高效支持业务的规模化扩张。
快看的业务有自身的特点,这种特点反馈到技术上,也是很直观的。
快看漫画的六条业务线在需求层面、后端和存储技术上选型上存在较大差异。例如,有的业务线需要采集 Nginx 原始日志,有的业务线需要采集落地的业务日志,有的业务后端甚至自建了 ELK 系统。在每个业务线的数据开发中,需要从业务需求出发,兼容后端和存储技术,灵活选用开源技术方案。当然,技术和框架的多样性,给数据开发带来学习成本和切换成本,会降低开发效率。
什么情况下需要建设数据中台?
实际上,当需要大规模的数据应用时 (搜索 / 推荐 /BI 报表…),才需要构建数据中台。因为建设数据中台的投入太大了。快看漫画是如何定义数据中台的呢?
屈世超说,数据中台,区别于前台和后台。前台是具体需求的呈现样式,后台是底层数据能力和平台工具,而中台则对底层数据能力和平台工具做一定程度的模块化,提供便捷的通用接口或能力,从而支撑业务的快速规模化扩张。
除了完善的底层数据和平台工具,数据中台还需要具备通用、易用的特性,要求技术团队基于多个业务抽象出公共的基础需求模块,并设计和落地能够承接业务应用的接口和功能。
一般来说,中台承接的业务量都会比较大,一是业务线数量多,二是每个业务的规模也较大。
快看漫画小而美的数据中台
为了让精细化运营能够高频的迭代,快速地利用底层大数据的支持,这就需要数据中台提供强有力的支持。既然要基于业务需求迭代开发一套小而美的数据中台方案,那如何规划数据中台架构?快看漫画的数据中台打通了全数据流程。包括:数据采集和同步、自助数仓建模和 ETL、离线调度管理、实时任务一体式管理、BI 可视化和自助查询分析,以及数据的治理体系。
在数据总线模块,Web 化管理配置,兼容多种数据源,统一接入规范,集成元数据管理、调度和实时任务管理系统;
在自助数仓建设模块,Web 化便捷配置,集成调度,简化 ETL 上手开发成本;
在实时任务管理模块,同样通过 Web 后台集成任务部署、管理、监控功能;
小而美的数据中台,“小”和“美”各体现在哪些方面?屈老师介绍说,”小“指的是轻快,快看漫画的目标是用最小的开发成本,搭建起最高效复用的中台系统;”美“指的设计优雅,简单即美,用 Web 化来搭建起最简化步骤的开发流程。
在整个数据中台化过程中,存在很多痛点,正如屈老师所说,推动数据中台化主要有两方面的压力,一是平衡业务数据开发需求和中台化建设开发的优先级;二是跳出数据开发视角去全局思考跨业务的开发机制。
在中台建设中,技术选型和工具使用上也有一些经验分享给大家。大数据领域,大家普遍会遇到的一个问题是:为了解决不同场景的采集、ETL、分析可视化需求,需要使用不同的开源框架,导致各种开源框架林立,增加了维护和迁移成本。基于开源框架,快看漫画的中台建设主要做了上层封装、统一使用流程和规范,提升易用性。
技术团队封装统一了数据总线、ETL 开发和调度模块、OLAP 分析模块、数据查询模块。目标是让各个模块连通形成闭环,并提升整体的易用性和使用效率。
快看漫画数据中台的具体实践
数据中台需求源于业务,也实践于业务开发。快看漫画的中台实践主要分为两个阶段。
第一阶段,由于业务扩张、运营精细化导致数据需求极速增多,在开发效率和数据复用上存在较多问题,快看漫画研发团队开始了数据中台化的调研和建设,这个阶段的工作内容以需求收集归类、抽象为主,逐渐演化出了当前的数据中台架构;
第二阶段,主要是做中台模块化的拆解开发和推广应用,这个阶段要注意两个陷阱,一是避免自嗨式的闭门造车,要贴近业务实际使用习惯,这样才容易推广应用。二是要统一数据接入、清洗规范,让数据最大程度的复用起来。
中台落地只是它使命的开始,如何评估数据中台的收益呢?屈世超老师说,评估数据中台的指标是业务开发效率和成本,数据中台能显著减少重复的开发成本,提升开发效率。
收益主要分两个方面,一是降低了开发门槛,让 PM、数据分析师、业务后台开发都能够自主选择合适的数据开发流程;二是提升了数据的复用能力,通过规范数据接入、清洗等规范,减少了重复开发和冗余存储。
个人和团队的收获
在数据中台规划/落地过程中,对于个人,对于团队,都有哪些收获和思考?
对于个人而言,屈老师说,最大的收获是能够站在公司全局视角去思考业务、人和数据平台的关系,梳理清晰了三者的供需关系。
对于业务团队来说,尤其是业务 PM、数据分析师和后台开发,他们有了可快速上手的平台工具去更快速的响应业务数据需求,解放了数据开发侧的需求压力;
从更广义的数据团队视角看,有了公共统一的数据规范,让公共数据在各个业务之间有了更高的复用性,提高了研发效能。
最后,屈老师团队正在招聘大数据架构师、数仓工程师、数据分析师等技术专家,以及客户端 &服务端架构师/工程师、运维开发工程师等,感兴趣可点击官网 https://kkworld.zhiye.com/home
技术会议推荐:
阔别半年之久,InfoQ 线下技术大会正式回归!将在 2020 年 12 月份和 2021 年 1 月份启动三站 QCon 全球软件开发大会(深圳、上海和北京)。根据各个地区属性,上海站设置了智能金融、5G 应用场景、去中台化、业务架构等专题。感兴趣的可以点击日程 https://qcon.infoq.cn/2020/shanghai/schedule
评论 3 条评论