写点什么

顺丰架构升级之路 - 如何在战斗机飞行途中换轮子

刘潭仁

  • 2021-06-02
  • 本文字数:4885 字

    阅读完需:约 16 分钟

顺丰架构升级之路-如何在战斗机飞行途中换轮子

我个人觉得精英化是我们的一个核心理念,就是我们认为精英可能效率会更高,当然我们也希望这些精英会有更高的性价比,我们在内部会营造一种精英文化。为什么我们的架构提到以人为本?也是基于这样一个理念。

 

2017 年,顺丰控股在深交所借壳上市,市值高达 2100 亿,成为当时中国快递行业名副其实的巨头。也就在 2017 年,顺丰控股对科技的投入首次突破 10 亿人民币,并在之后逐年递增,2020 年,顺丰控股的科技投入超过 40 亿人民币,继续创新高。同时,集团在基础架构,技术平台构建,技术委员会搭建等层面均有重大进展,真正蜕变为一家技术驱动的物流快递巨头。

 

近期,InfoQ 上海站的 Arch Summit 大会邀请了顺丰科技架构委员会负责人刘潭仁出席演讲。小编趁此机会做了专访,与其探讨了顺丰科技近年来在 PAAS 层面架构升级之路,一窥快递业巨头如何在“飞机飞行途中更换轮子”,一步步实现蜕变。

 

以下是访谈内容整理,分享给大家,Enjoy~


从华为到顺丰,要利用数字化做线上业务闭环

 

主持人:您之前在华为任职 15 年,也算 IT 行业老兵了。而在华为主要做大数据业务,到了顺丰做云化和架构转型,您当时是怎么考虑到做这样的转变?

 

刘潭仁:我在华为一直做数字化项目,这十几年里,从最初的预算系统、核算系统,到 IVS 变革后的一些大的数据平台,到 S+变革的平台,到消费者变革的数据平台,大部分都是我在主导,所以我在华为更多是在从事一些数据化变革的工作。

 

主持人:您在华为这 15 年来的工作全都是关于大数据业务的?

 

刘潭仁:关于大数据平台和数据中台,大数据平台至少做了 12 年,数据中台做了一两年。

 

主持人:看您来到顺丰之后,工作内容有了很大的转变,但仍然是云计算、大数据方向,或者说仍是技术方向,只是是不是更偏重于云化和架构转型方面了?

 

刘潭仁:其实在华为的时候也做数据平台的 PAAS,而且当时华为也在做私有云,我当时主要做一些云的设计,包括深度参与私有云的一些设计方案。顺丰也是在做 PAAS 层,我相对比较了解,我的工作内容一直都是偏重于技术管理和架构,所以来顺丰以后,比较容易过渡。

 

我认为,现在的 IT 本质上就是整个科技(特别基础设施能力)做数字化转型的过程。我之前一直做数据类的工作,所以我可以以更特别的视角去看这些问题,我会从数据、数字化转型的角度来看所有现在做的事情,比如说为什么要做云?到了一定规模以后,怎么让整个资源的效率更高?再如,怎么让用户体验更好?数据转型天生就有这样一个特质,我们在做整个科技战略的时候,我们也会有所考虑。

 

首先,比如我们通过云做 DevOps 一体化,我们的运维是整个交易端的转型,举个例子,原来获取资源可能需要两三天的时间,但是云化以后,把所有的能力变成服务放到云上,用户能够一键式在秒级或者分钟级拿到他所需要的资源,这就相当于一个下单的过程,把所有的云产品放上去,就相当于上架的过程。这些都是在交易端进行的转型,DevOps 一体化,就是让我们所有的科研人员可以在数字化平台里面自动化地完成所有过程。

 

我们还做了数字化运营,就是所做的 DevOps 一体化要看效果,去看我们的资产效率有没有提高,我们的研发人员效率有没有提高,研发人员的质量怎么样,包括我们的稳定性、可靠性有没有呈现更好的趋势,从而形成完整的闭环。顺丰基础设施的逻辑是,我们当时所提出的云化、服务化、DevOps 一体化和数字化,其中数字化是我们的落脚点,最后如果最终不能在经营上产生效益是没有意义的。我当初到顺丰就是要尝试迎接这样的一个挑战。

 

主持人:您刚刚提到在实际的业务中把云化、服务化、DevOps 一体化、数字化通过整个闭环给串起来是吧?

 

刘潭仁:是的,我们做云就会看,资源获取的效率到底发生什么样的变化?自动化占多大比率?我们去年自动化率达到了 88%,今年 90%。在整体效率方面,人员效率提升 60%左右,这是个很可怕的变化。我们的资源使用率有明确的目标,每年要提高多少个点,从运营视角怎么把这些使用率低的资源利用起来。通过这样的驱动,前面有技术方向在拉着大家走,后面有数字化运营,从数据上看,到底做得什么样,哪个地方的变化使团队跑的更快。

 

一定要有这个闭环,如果不闭环就看不到效果,因为我们做的东西偏后端,从投资的角度来说,很多时候上层领导决策会看效果,如果说不能从数字、从运营的角度来讲清楚,在投资上就会面临挑战。所以端到端的闭环才真正能够把这个事情做好。


架构升级,利用三层治理架构节省成本优化体验

 

主持人:顺丰作为快递业龙头,在架构设计上有哪些典型特征?

 

刘潭仁:我们认为快递是运营性的,顺丰是一个很大的运营组织,我们管理那么多小哥、场地、车、飞机,等等,本质上要提高用户体验,降低成本,因为成本就是利润。

 

我们除了大量使用像原子云、原生云这样的底层技术以外,其实很多时候还会用到大数据、AI、运筹的相关技术,因为我们有大量的资源调度、线路优化,要把云车、货场全部协同起来。我们会在前端 AI、大数据、运筹等等这些方面投资,关注一些新的技术,比如区块链,因为现在物流有些溯源的产品,去给用户提供更高的质量,防止造假。

 

我们是端到端的服务,收端一定是小哥到你家去取货,派端一定是小哥送到你家门口,这是我们的服务要求。这些服务要求需要用很多技术去满足,比如动态调整线路、调整路由以保证速度,这就要依靠一些 AI 和运筹算法。

 

主持人:这个事听起来很宏大,或者说涉及很多的方面,实际在做的时候遇到过一些什么比较大的挑战? 

 

刘潭仁:物流和电商不一样的,电商是完全在线的,都是线上的,物流是线下的,做的是实物的搬运。举个简单例子,假如你邮寄一个比较昂贵的东西,比如说茅台或者笔记本,在这个过程中,存在有损坏的可能性,这就是类似的一些责任和挑战,所以我们就做了神童,会在流的每一个结点上装上很多摄像头,每个分捡场都会有很多摄像头,通过处理拍摄到的数据,看有没有一些暴力分捡行为,像这些基础措施需要做很大的投资,因为它要去抓取海量的数据,最后还需要 AI 专家去训练模型,再做判断。

 

另外一个例子,我们场地的自动化需要大量的投入,需要大量的无人相关的技术。所以整体来说,要去改变一个实体世界,投入会更多,这么激烈的竞争里面,我们怎么做好就是一个比较大的挑战。

 

主持人:像这种自动化的投入,或者说大数据技术的投入,其他同业的快递公司,他们应该也有很多这些方向上的投入,顺丰在这方面有什么比较突出的特点吗? 

 

刘潭仁:我们的同行像京东以及其他有些公司也做得不错,但是我个人觉得顺丰在用户体验上的一些积累会好一些。另外一个就是,它原来做电商出身,仓储这方面做得比较好。顺丰长项的路由一定要保证准时到,其他供应商应该没有这个能力。也就是说顺丰在网络调度上有比较大的优势。

 

首先,顺丰现在定位是一个独立的第三方解决方案数据科技服务公司,这个定义就意味着在科技上的投资是巨大的,我们每年在科技上都会有几十亿的投资,这些年积累出来,不管私有云的建设、公有云的建设,边缘的建设,还是整个架构上以及整个大数据平台、AI 和运筹,包括我们前端供应链都对外直接做软件溢出了,像我们内部还有协同,我们有分商的平台,这些都是我们自己完全自研的。

 

主持人:您演讲中提到以人为核心的架构转型,这听起来像公司治理架构,但是您提的却是一个技术架构的概念,二者有什么区别和联系?

 

刘潭仁:我个人觉得精英化是我们的一个核心理念,就是我们认为精英可能效率会更高,当然我们也希望这些精英会有更高的性价比,我们在内部会营造一种精英文化。为什么我们的架构提到以人为本?也是基于这样一个理念。

 

当时我们既然说要变革,就是因为当时相对落后,我们在向互联网公司转型的目标前进,确实需要一批非常优秀的人。如果说我们的架构要去实现一个梦想,没有一批很厉害的人是搞不定的,怎么让他愿意来,要给他更好的空间,甚至更好的待遇,这就是以人为本。给架构师一个通道,去真正解决有价值的问题,那么团队的能力就能激发出来。所以我们整个架构治理体系当初分了三层,就是基于这样的原因。

 

从 IDC 云化到,未来要做成 AIOps,未来目标是基建 2025

 

主持人:如今边缘计算十分火爆,顺丰在架构转型过程中也经历过全面云化的阶段。边缘计算在顺丰全面云化过程中占据什么位置?

 

刘潭仁:我们一开始是从 IDC 的云化开始的,IDC 是一个混合云的项目。边缘在顺丰为什么越来越重要?这恰恰说明顺丰的场景天生如此,在顺丰不做边缘,感觉人的能力就发挥不出来,因为我们是典型的网络,在边缘有大量的计算,那么管理可能会更复杂,因为分布在全国各地。

 

我们经常开玩笑说,我们现在一个人就是一个省长。就是说一个做基础设施的科技人员,他管着一个省的各个场地,或者各个军工厂,那它就整天折腾在不同的城市,非常辛苦。如果招很多人,可能运营成本就会高,怎么去解决这类问题?只有通过自动化、标准化来解决。

 

我们去年一开始做得还是 IDC 能力的延伸,比如我们有一个分捡系统,把相对所有底层的东西全部容器化了,后来再把总部在 IDC 的 CICD 流水线打通,于是,就可以统一在总部做这个分捡系统的发版(包括运维监控),不需要在各区域各城市折腾了。后来又发现有些事这样是搞不定的,因为我们很多系统是异构的,而且有些分捡部的网络场景很差。

 

我们现在的核心是把所有的场地从底层开始全部做标准化,标准化以后再把这些边缘的能力,包括容器的能力全部推到场地里面去,这样就可以大大展现我们为一线的这些用户做的供应链的价值,他们可以把架构做得统一。

 

主持人:顺丰架构升级的下一步还有哪些计划? 

 

刘潭仁:第一个,云原生我们现在做到一定阶段了,但是并没有用 Istio 技术,我们还是基于微服务,像 Double、Spring Cloud、容器这些技术,但对我来说,这不是个很大的问题,因为本身 Istio 也不是那么稳定,未来是不是可以往这个方向去走,使前端更轻量一些,现在也在考虑,正在试点。

 

第二个,云原生安全性,因为现在国内越来越重视安全,顺丰对安全一直很关注,像容器的安全等有没有更好的解决方案,现在我看业界还不太多。

 

第三个,跟进 AIOps 这条线,我们现在加工体系、运营体系都建起来了,但是怎么去做好它,能够及时发现问题,是我们一直追求的目标,不要在出现问题后才发现。还有怎么快速定位问题、解决问题。我们现在发现问题平均可能要十分钟,或者几分钟,解决问题可能需要平均一二十分钟,整体时效太慢了。我们目标是做到 5 分钟之内就知道问题已经发生了。我们希望能够最小化对用户的干扰,所以 AIOps 是我们正在用户体验方面努力的一个方向。

 

以上都是偏技术的,从应用架构角度来看,我们现在在做一个叫异地多核的方案,现在我们更多是两个数据中心在同一个城市做双核的方案,我们现在也在看,数据中心是不是可以做异地多核,做更极致的分享。从顺丰的整体来说,在做一些像无人化之类的事情,包括无人机。

 

主持人:您对未来顺丰架构升级有怎样的预期和愿景?预计还需要多长的时间周期去完成?

 

刘潭仁:我们有一个共同的愿景,就是基建 2025,就是运用新的技术去改变这个顺丰的业务,去驱动整个业务的变革,其中有几点:

第一个是高可用,我们未来的容灾的目标是在分钟级,现在我们是一个小时,我们的目标可能未来顺丰所有的核心系统,包括顺丰 80%的业务,能在 5 分钟之内做到容灾的切换。

 

第二个是我们所谓的适应速度,就是整个企业去适应技术的发展,靠科技的力量打破传统行业的做法,能够真正赚到钱。举个简单例子,我们提到业务的发展速度,会通过 GIA 之类的技术去提高用户体验,去帮助公司的运营,包括怎么在分拣场景里运用 5G 技术、自动化技术,把自动化水平提高上去,把成本降下来。

 

第三个是安全合规,公司对隐私安全非常关注,就包括大家每个单的所有的数据,在后台都是加密的,整个流程中从扫码端开始,包括小微给你打电话都是虚拟号,而不是真的手机号,保证你的信息是不泄密的。现在顺丰在大量拓展海外市场,需要去遵从各个国家的隐私安全条款,比如欧洲的 GDPR。

 

最后一个是运营成本,不仅是我们自己的成本,而是整个人类社会的成本。我们在绿色环保上做了很多,比如,寄件离不开包装,顺丰在研究并已经投入使用可回收的打包材料。我们有个专门做绿色包装的公司。

2021-06-02 12:212700
用户头像

发布了 74 篇内容, 共 28.9 次阅读, 收获喜欢 83 次。

关注

评论 1 条评论

发布
用户头像
架构是指这个?一脸懵逼
2021-06-11 14:25
回复
没有更多了
发现更多内容

你用对了么?对象文件网关 VS 分布式文件存储

焱融科技

云计算 分布式系统 对象存储 高性能 文件存储

Python语法之集合

芯动大师

集合 9月月更 Python语法

NFTScan 与 Banksea Finance 在 NFT 源数据层面达成战略合作

NFT Research

区块链 NFT 合作 web3

开发者测评:相比 Harbor,我选择 ACR 的三点原因

阿里巴巴云原生

阿里云 Kubernetes 容器 云原生 ACR

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏

程序知音

The Architecture of Wechat & SMS

David

架构实战营

2022秋招最新整理上千道Java面试攻略,近500页PDF文档

收到请回复

程序员 Java 面试 跳槽 语言 & 开发 秋招

信创升级 | 秒云与人大金仓完成兼容性互认证

MIAOYUN

数据库 信创 国产数据库 信创云 容器云平台

软件开发正确打开方式:低代码+微服务

力软低代码开发平台

龙湖千丁基于 ACK@Edge 的云原生智慧停车系统架构实践

阿里巴巴云原生

阿里云 Kubernetes 云原生

PLG SaaS 案例:如何实践外链自动增长策略?

程序员泥瓦匠

SaaS

ESP32-C3 应用 篇(实例一、通过MQTT协议连接ONENET上报传感器数据,云平台下发灯光调色)

矜辰所致

mqtt ESP32-C3 9月月更 项目应用 OneNet

Spring 注解 @Resource 与 @Autowired 的区别

六月的雨在InfoQ

注解 依赖注入 @Autowired @Resource 9月月更

Python语法之元组

芯动大师

Python 元组 9月月更

开发者有话说|成长之路

六月的雨在InfoQ

个人成长 开会 996 007 9月月更

【编程基础】利用Python实现阿姆斯特朗数的求解

迷彩

Python 9月月更 阿姆斯特朗数 水仙花数

融云x白鲸《2022社交泛娱乐出海白皮书》

融云 RongCloud

互联网 白皮书 融云

Fluid 助力阿里云 Serverless 容器极致提速

阿里巴巴云原生

阿里云 Serverless 云原生 Fluid ASK

5G网络行业切片SLA初探

鲸品堂

5G 网络切片

开发者有话说|一名高中生的编程之路

Loken

个人成长

天猫精灵DIY--技能应用

六月的雨在InfoQ

天猫精灵 功能模型 9月月更 公共实体 语音交互

看大神如何用Maya再现神剧《绝命毒师》主角/场景

Renderbus瑞云渲染农场

数据产品经理那点事儿二(合集)

松子(李博源)

大数据 深度思考 高效工作

数据产品经理那点事儿三(合集)

松子(李博源)

大数据 深度思考 高效工作 数据产品经理

com.alibaba.fastjson 对象转json剔除字段

六月的雨在InfoQ

问题处理 Fastjson index Elastic Search 9月月更

Python语法之函数

芯动大师

旷世巨作!20多位架构师携手打造的“Java 面试核心宝典”限时开源

Geek_0c76c3

Java 数据库 开源 程序员 架构

面试了一位4年Java的程序员,张口就要35K,还什么都不会...

收到请回复

Java 语言 & 开发 八股文

bootstrap input框回车后重新刷新页面问题

六月的雨在InfoQ

bootstrap Input 9月月更 表单提交

字节、美团、滴滴以及蚂蚁金服Java后端面试过程

收到请回复

Java 程序员 面试 项目 语言 & 开发

不会还有程序员不知道跳槽季靠这1700道java面试题就能平淌大厂吧

程序知音

Java java面试 后端技术 秋招 Java面试题

顺丰架构升级之路-如何在战斗机飞行途中换轮子_架构_施尧_InfoQ精选文章