HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

  • 2022-07-25
  • 本文字数:2652 字

    阅读完需:约 9 分钟

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

顺丰高速发展背后隐藏巨大阻力,各领域的数据问题成为顺丰精细化经营的最大困境,主要体现在核心业务线 O 线、M 线、F 线、H 线跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘。

 

而为了解决这样的问题,顺丰内部推动了数据中台项目,旨在打通内部数据的使用效率。数据中台作为集团最核心技术系统之一,如何构建其架构体系,如何在实际业务场景进行落地?本次采访了顺丰科技大数据总监蔡适择老师,来讲讲相关实战经验。

 

2022 年 8 月 18-19 日北京ArchSummit全球架构师峰会上,也设置了大数据治理专题,感兴趣的可以查看会议日程,来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

 

InfoQ:蔡老师,您目前负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程。数据平台建设之前,顺丰内部的数据是一种什么样的状况?有哪些阻力?

 

蔡适择:在建设统一平台之前,数据是分散到各个独立的组织中,且各组织的数据想要共享比较困难,所以以前也有大数据,但它是一个个的数据孤岛,对业务的助力也仅仅是做一些报表,数据的需求则要由指定的人在指定的机器上编写指定的脚本来满足,交付效率低。

 

建设统一的平台,最大的挑战在于如何在满足信息安全的同时,对全域数据进行拉通与融合,并以开放自助的方式来大幅提升交付效率,而顺丰的数据又是相对来说比较敏感的,所以信息安全的思维惯性反而在当时成为了最大的阻力。

 

InfoQ:顺丰数据中台建设经过了哪几个阶段?建设之初,做了哪些架构层面的规划?

 

蔡适择:大体来说,可以分为三个阶段吧,第一个阶段算是开荒期,重点是做统一平台、统一工具、统一数据湖,在数据安全、可扩展性、数据共享上做了较为细致的规划,基本奠定了整体的平台服务基础。

 

第二阶段算是整合期,基于顺丰多元化战略的契机,在多租户模式下数据融合、数据协同开发、数据资产线上化上给予重点突破,让数据开发效率有大幅的提升,反映到业务中,就是数字指导经营基本深入到了业务各条线。

 

第三阶段一直持续至今天,我们称之为治理期,经过多年的数据野蛮增长,平台沉淀了不少数据,但数据的质量、数据的复用性、数据口径的统一却常常未达预期,因此需要对其进行深度的治理,在此期间,重点推进数据标准与质量、数据开发规范、平台数据运营工作,并在底盘架构上进行云原生、多机房、实时化改造,让全集团的数据人员深度参与,让顺丰的数据中台在数据质量、数据共享、数据应用效率上有质的提升。

 

InfoQ:数据中台建设之前,一直存在的“跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘”这些问题,在中台建设之后,已经完全解决了嘛?在业务上的效果如何?

 

蔡适择:这些问题完全解决是不太可能的,但对比以前,算是有质的飞跃。

 

  • 比如跨领域数据共享,我们在保障数据安全合规的情况下,通过数据标准、研发标准,以及底盘逻辑化改造,基本解决掉曾经或潜在的共享障碍;

  • 在数据时效性上,我们通过自建的数据开发平台、实时数据湖能力、湖仓一体的能力,让数据时效提升变得轻松且低成本;

  • 在数据质量上,经过多年的数据标准沉淀及数据质量平台的建设,让数据质量问题得以及时发现、及时处理,有效地提升数据质量,并基于数据指标平台及建模工具,在数据标准、数出一孔方面得以大幅保障,基本改善了口径不统一的情况。

 

从业务效果上来总结,让用户搜不到、找到不可用、查到不敢信等数据问题基本得到解决。

 

InfoQ:数据中台在实际业务场景进行落地的时候,遇到了哪些技术上,或者内部推动上的困难?例如跨领域共享、指标时效、数据治理、团队协同及跨云计算等问题。又是如何解决的?

 

蔡适择:能用技术解决的问题都不能算是大的问题,最大的困难还是在于内部推动上,数据共享、多人协同开发、数据标准化都是需要跨组织拉通,并推动对现有的内容进行改造的,对现有业务的影响如何避免、改造后的短期收益不明显都是明显的障碍,因此需要从上往下推行,需要在高层上就取得一致的共识与支持才能进行下去。所以顺丰的数据中台能够顺利推进,最大的因素还是因为管理层有坚定的决心,且取得了一致的共识。

 

当然,在技术上还是有一定的挑战的,比如数据实时化,让研发写专业的代码肯定也是可以实现的,但这成本高、灵活性低。因此我们需要在实时数据湖、实时数据开发平台上做深度的低门槛化,才能让数据实时化得以大幅推进;再比如跨云计算,因为随着业务用数的人越来越多、用户自助分析的需求越来越大,且物流快递行业是具有明显的高峰低谷时期,算力需求的不稳定性是比较突出的,因此我们通过对大数据底盘架构做深度改造,在存算分离、精细化缓存、跨机房精细调度等方面进行深度研发,并与公有云打通,借助公有云的弹性能力,让计算按需弹性到公有云,在平衡成本的情况下,有效地保障了不稳定的算力需求。

 

InfoQ:在您看来,顺丰数据治理体系的关键理念是什么?又是如何践行的?

 

蔡适择:一套数据治理体系、一个数据中台、N 个应用,要践行这样的理念,首先需要管理层有深刻的共识,让事情能推下去;其次,平台及工具要足够地简单与透明,让用户愿意配合;最后,要有配套的数据运营,即需要有一条鞭子,确保标准规范得以落地,并让数据的价值得以数字化显现。

 

InfoQ:数据中台建设,及应用落地的经验,对快递行业发展有什么借鉴经验可以传播的?

 

蔡适择:要有数据标准、要关注数据质量。快递行业是一个“人多、车多、货多、场多、环节多”的业务场景,如果全靠人管,没有全局的数据支撑,效率必将大打折扣,一个相对完备的数据中台,不仅仅能够让管理者及时发现业务问题、调整战略方向,还能让经营精细化、物流智能化得以推进,但这么多的环节对接、这么多的人工操作,数据质量问题是最容易出现且又最容易被忽视的,而一个有众多数据质量问题的数据中台,是没有可能成功的。

讲师简介

蔡适择,顺丰科技有限公司大数据总监。负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程,之前负责京东实时计算平台从 0 至 1 的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验,深耕大数据平台存算分离、实时数仓、融合计算等技术,致力于大幅降低数据开发及应用门槛,让大数据技术成为一项人人可用、可快速应用的技术。

活动推荐


ArchSummit全球架构师峰会(北京站)设置了企业数字化转型落地探索专题。来自来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

2022-07-25 18:177904

评论

发布
暂无评论
发现更多内容

疫情年逆风翻盘

Kerwin

程序员

简述 CAP 原理

不在调上

5万字、97 张图总结操作系统核心知识点

苹果看辽宁体育

操作系统 计算机

nginx在重定向时端口出错的问题

烫烫烫个喵啊

nginx

week6 总结

不在调上

一张PDF了解JDK10 GC调优秘籍-附PDF下载

程序那些事

Java jdk JVM GC JDK10

Docker网络学习第一篇:Linux虚拟网络

Lazy

Docker Linux 网络

Mybatis执行流程浅析(附深度文章推荐&面试题集锦)

Kerwin

Java mybatis

日记一则

progyoung

Java8——方法引用

Java旅途

java8 方法引用

纯CSS实现自定义单选框和复选框

爱嘤嘤嘤斯坦

CSS Java 编程语言 标签

6 个珍藏已久 IDEA 小技巧,这一波全部分享给你!

楼下小黑哥

Java IDEA

开发框架文档体系化的思考

vivo互联网技术

框架开发

ARTS - Week 5

Khirye

ARTS 打卡计划

因为 Django ORM update,我今天差点「从删库到跑路」

AlwaysBeta

数据库 django 编程 程序员

【计算机网络】你需要知道的链路层知识

烫烫烫个喵啊

计算机网络 链路层 交换机

SpringBoot代码生成器

Kerwin

Java 开源

Hello!GitHub 好用好玩值得收藏的开源项目集合~

Kerwin

开源

设计模式总篇:从为什么需要原则到实际落地(附知识图谱)

Kerwin

Java 设计模式

当我们在谈架构时,我们谈的是什么?

冯文辉

架构 企业架构 系统架构

30岁+程序员职场攻略:找到自己的“职业锚”乘风破浪

华为云开发者联盟

程序员 AI 开发者 职场

架构师训练营 - 第六周 - 作业

韩挺

程序员的时间管理

Kerwin

程序员

没内鬼,来点干货!SQL优化和诊断

Kerwin

MySQL

没内鬼,来点干货!volatile和synchronized

Kerwin

Java volatile synchronized

前端杂记-&&和||

阡陌r

JavaScript && ||

Docker网络学习第二篇-认识iptables

Lazy

Docker Linux 网络

redis系列之——一致性hash算法

诸葛小猿

redis 一致性hash redis集群

Elasticsearch从入门到放弃:再聊搜索

Jackey

elasticsearch

关于如何判断一个list是否为空的思考

Leetao

Python Python基础知识 列表

秒懂云通信:通信圈黑话大盘点

阿里云Edge Plus

云通信 通信云

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择_大数据_Xue Liang_InfoQ精选文章