9 月 18 日,在 2020 杭州云栖大会上,阿里巴巴宣布成立云原生技术委员会(以下简称委员会),阿里巴巴高级研究员蒋江伟担任委员会负责人,达摩院数据库首席科学家李飞飞、阿里云计算平台高级研究员贾扬清、阿里云原生应用平台研究员丁宇等多位阿里技术负责人参与其中。
委员会的诞生,不仅意味着阿里全面拥抱云原生,而且标志着云原生升级为阿里技术新战略。可见,阿里在云原生方向下足了决心。
要问这股决心来自什么?阿里云原生技术负责人丁宇表示,“这来自于跟技术要红利。那么,什么是领先一代的技术?是能真正发挥技术与产品的价值,帮助企业业务实现突破与创新,助力企业更好地发展。”
在丁宇眼中,云原生就是“领先一代的技术”。
“我们在不断发展的过程中看到这个方向,又通过自身实践,证明这是一个正确方向,从而更加认可它。因此,我们就比别人更早一些下定决心。”丁宇说。
事实上,在过去多年的云原生实践中,阿里获得了不少技术红利。
向技术要红利
据悉,2009 年,阿里落地了分布式,2011 年又落地了容器化……2019 年电商核心系统 100% 上云,“每一年,我们都在跟技术要红利。”丁宇说。
双 11 万笔交易成本 4 年下降 80%
在双 11 场景下,阿里以前做 1 万笔交易要花 100 块,而现在只要 20 块,再乘以阿里的交易规模系数,可以看到这个成本节省的红利是巨大的。
丁宇表示,“这就是通过云原生降低的成本。”一般来说,云原生的第一步是容器化。当容器化以后,整个系统就可以进行标准化对接,云上的弹性变得更加灵活。“我们用云原生的标准化调度技术,做统一调度和混合部署。这样,很多业务的工作负载都跑在同样的调度下,于是,整个资源效率和利用率得到了大幅提升。同时,我们的系统架构从集中式到分布式再到微服务化,整个业务的迭代效率得到快速提高,团队也不断壮大。比如,原来可能三四百人支持的四五个系统,很快变成了 20 万个微服务,一个人就能负责四五个微服务,整个技术迭代的效率也得到了大幅提高。”他说。
抛个对比,100 人维护一个系统和 1 个人维护四五个微服务,哪一个效率更高?答案无疑是后者。
除了降低成本,云原生还提高了阿里的技术效率。现在,阿里的业务由公共云的标准产品来提供支持,包括全面切换到云原生数据库上。“通过 SLA 交互建立起来的服务体系实际上更有保障,这样的服务不仅更标准,而且更加系统化,而不是靠以前的人肉方式去提供服务。”
另外,委员会还制定了一些有挑战性的目标:研发效率提高 30%。在丁宇看来,作为一个有万名工程师的公司,研发效率提升 30% 产生的红利将是非常可观的。他强调,“云原生不仅帮助了双 11,还帮助了阿里,无论从资源成本,还是技术迭代效率上都得到大幅提高。”
从几周到几分钟
在经济体内,蚂蚁集团也通过云原生拿到了技术红利。据蚂蚁可信原生技术部负责人何征宇介绍,在蚂蚁集团,资源池通过容器的方式来统一交付,这大大提升了资源治理能力。以前,资源交付主要以主机为主,用虚拟机的技术去承载业务负载,这就会出现一个问题:可观测比较难。“而容器化之后的可伸缩性和统一调度的能力对我们大有帮助”。
在服务治理上,蚂蚁引入 Service Mesh。通过云原生的方法和解耦规范 API 的方法,业务和基础设施可以在同一个系统里、在不同平面上工作,这样一来业务对基础设施一些需求的响应速度就得到提高,进一步释放了基础设施人员和业务人员的生产力。
举一个典型的例子,SOFAMesh 是蚂蚁针对金融行业特殊需求而开发的金融级中间件,它从 2009 年开始开发,是蚂蚁金融级云原生分布式框架 SOFAStack 的一部分。以前,切换资源后需要重新部署,中间的切换时间长达几周。而 SOFAMesh 的上线,彻底改变了这种情况,切换资源不再需要重新部署,切换时间更是缩短到分钟级。这意味着,像蚂蚁森林这样每天都会面临流量小高峰的业务,无需事先留足资源余量,提前 10 分钟开始切换资源都绰绰有余。
在去年双 11,SOFAMesh 100% 覆盖蚂蚁金服核心支付链路,几十万容器,峰值千万 QPS,平均 RT(响应时间)为 0.2ms,是业界最大的 Service Mesh 集群。
双 11 加速云原生化
阿里内部有一句话,“没有经过双 11 检验的技术就不是一个成熟的技术。”
在丁宇看来,双 11 的挑战是,如何用一个比较低的成本实现吞吐能力最大化和用户体验最大化。因此,这是一个技术的权衡标准。
“作为双 11 的技术 Leader,我们就要去考虑,今年哪些地方要升级,哪些地方不要升级,这些升级是不是能够进一步的提升效率、降低成本、控制好风险,又能使用比较领先的技术。其实就是通过技术领先一代所获取的未来红利。如果用当下的技术去做,我们很难做出技术的优势,很难给业务提供更好的支撑。”他说。
双 11 有一个特点是会出现极限峰值。打个比方,日常的峰值是 1 万,双 11 可能会达到 30 万。换句话说,这是一个 30 倍以上的峰值。面对这样的情况,“阿里不可能用 30 倍的成本去支撑双 11,这肯定是公司难以承受的代价”。
在一个确定的时间会有如此大的极限峰值,这实际上推动阿里技术人考虑怎么去降低成本、提升稳定性,推动技术一代代向前演进。
怎么降低成本?丁宇解释,”早在 2011 年,阿里开始自研容器技术。2013 年 Docker 问世,阿里云容器融合其先进理念,并在 2015 年推进集团业务全面的容器化演进,容器技术对于双 11 的显著影响还包括在具体的混部技术实施中,通过混部技术,可节省 30% 左右的 IT 成本支出,在双 11 这个特殊时间段里,将每万笔交易成本降低 75% 以上。”
他说,“最后跟万千客户一样,我们就完全走到了云上。其实还是价值驱动,我们发现上云对业务是最好的,从各个方面都有提升,最后双 11 就完全跑在云上了。”
从某种程度说,双 11 不仅是阿里技术的“练兵场”,而且还加速了集团内部的云原生化。
在双 11 的场景中,通过落地云原生技术,阿里越来越确信云原生技术方向上的价值。2019 年,阿里将电商核心系统 100% 搬到云上,但是这并非一蹴而就。
丁宇向 InfoQ 记者指出,“我们不是一次就搬完的,因为技术分很多层次。今天,我们做的是云原生上云,更多的依赖于云上的标准化产品和技术。云原生产品让我们真正看到了红利,我们就会上云,不断往上走,然后更深层次的去上云。”
正因为拿到了技术红利,看到了云原生的价值,所以让阿里更加坚定这个方向,成立云原生技术委员会,对内加速上云,对外增加投入,让更多的技术人投入进来。
未来一年投 20 亿,赋能开发者和用户
虽然阿里拿到了红利,很多开发者拿到了容器化、K8s 和 Serverless 的红利,但丁宇认为“云原生技术和理念普及的范围仍有很大的空间。我们希望通过成立云原生技术委员会,进一步加大对云原生领域的投入,帮助开发者,赋能开发者。”
在合作伙伴方面,阿里发起云原生合作伙伴计划,优选集成 100 个头部伙伴,合作 10000 家伙伴,赋能 50 万开发者,与伙伴一起加速企业数字化转型。“阿里云已经有超过 300 万的企业客户,我们希望合作伙伴跟我们一起,来满足企业客户的需求。”“这是一个非常好的时机去战略升级,聚焦力量,加大投入,加速整个行业云原生的落地。”他说。
云原生怎样助力企业和开发者
云原生可以加速企业的数字化转型。进一步看,云原生具体是怎么帮助企业的?
云计算的第一代能力是 IaaS,主要包含计算、存储和网络。云原生可加速企业基础设施的云化。企业通过容器化、通过标准化的交付、弹性,可以和云之间做更好的资源互通,更快地上云。丁宇称,“基础设施云化后,采购资源就变成了租用资源,企业就可以收割第一波的云计算红利“。
往上一层,云原生中间件可以帮助企业实现核心技术的互联网化,包括分布式、微服务、服务网格等技术,可以让企业客户和开发者的应用架构向云原生架构升级。如此,企业就具备分布式、可扩展、快速迭代的能力,业务可以快速向前突破。实现这样的技术后,企业就能打破数据孤岛,做到数据互通和服务复用。
“如此一来,我们就能帮企业去做数据化、智能化。云原生的技术和产品把企业的基本服务先打通,然后提升技术效率,降低资源成本,提高研发效率,缩短业务上线时间。我们今天讲,云原生是拿到技术红利的一种新方式,并且是企业数字化的最短路径。”他补充说。
对于开发者,云原生同样可以带来好处。蚂蚁可信原生技术部负责人何征宇称,“对应用开发者来说,我觉得会更加方便、更加简单。”在某种程度上,云原生的变革类似于以前 IT 系统的升级。从业务角度,在这个时代,可能对基础设施的关注会越来越少,更多的关注本身的业务逻辑。
对基础设施的开发者而言,他们会享受到标准化的优势。“我能感受到,现在做技术基础的工程师,肯定言必称‘云原生’,因为他们整个的环境,要面对的东西更多是容器、服务网格等,而不是原来那样搞个 Apache、搞个 Nginx,语言上也会有不同的变化。”他说。
阿里经济体云原生化蓝图
据悉,阿里经济体是一个规模庞大的企业集团,有淘宝、天猫、盒马、AliExpress、Lazada、阿里巴巴国际站、1688、饿了么、优酷、钉钉、阿里妈妈、阿里云、菜鸟、蚂蚁集团等成员。实现这些成员的全面云原生化是云原生技术委员会的主要目标之一。
委员会的首要目的是统一思想。丁宇表示,“虽然核心是赋能开发者和客户,但我们自己首先要构建体系,然后统一思路,建设一些标准。但我觉得,委员会还需要再往下一层,面向未来。云原生有哪些技术,它的路线是什么,形成哪些新的特性,形成哪些新的竞争力,未来市场和客户还会需要什么,我觉得需要更多的拉通,更多前瞻的布局,还有落实更多眼下的工作,这都是委员会应该去做的事情。”
上云会涉及阿里技术的方方面面,比如数据库、安全、大数据、中间件、容器调度和 Serverless 等。云原生技术委员会的成立,聚集起各个领域的负责人,形成更多共识,统一节奏。
丁宇举了一个例子。今天,某个业务要上云,路径千千条。“但是,我们希望用最小的代价、更低的成本能统一性地上云,这就少不了委员会要达成节奏一致,从整体上来控制风险“。
挑战:复杂性、技术债务…
据丁宇介绍,这个路线图是自底向上,“IaaS 层已经全部完成,到 PaaS 层,我们开始有选择的进行”。至少一年前,阿里就已经在进行云原生化大规模的落地,但情况非常复杂。阿里整个业务,既有比较复杂的技术债务,又有不同的技术层次,“你要替换几十种技术,内外的技术如何达成统一,其实面临很多的挑战”。
在迁移过程中,整体业务系统会涉及到一些投入,还有短期的成本波动。此外,还会有一些额外技术和人力的付出。
他表示,“如何控制复杂性,怎么控制好上云过程中,升级大型系统架构的稳定性问题,控制好技术风险,都是一直面对的难题。这种技术体系的迁移也需要技术人员体系和技能的共同升级。而一旦人、技术和系统升级后,就会有更好的表现。”
核心策略:三位一体
阿里云原生技术委员会提出了一个核心策略,叫三位一体,即社区的标准化技术与阿里用的技术、对外服务企业的技术达成一致,互相兼容。“所以,我们一定是往开源开放的标准上去兼容”。
同时,“在个性化的部分,我们基本上用可扩展的方式、标准化的方式去进行一些扩展,保持基本的协议标准的兼容”。在丁宇看来,“我们就能把在阿里沉淀的一些企业特性变成阿里云核心能力的一部分,因为我们都是在标准的技术上进行扩展和填充的,所以也解决了我们竞争力的问题。”
动作:云原生样板间
目前,在阿里巴巴经济体中,Lazada 已经实现 100% 云原生。作为阿里经济体中相对低调的成员,为何它却走在前面?
据丁宇解释,Lazada 成立较晚,技术债务比较少,并且正在做一次大的技术升级。对 Lazada 而言,云原生是一个非常好的升级方向,“所以比较容易一拍即合,把它做成一个云原生样板间”。
“有几个要素可以让我们找到这样的云原生标杆。一个是它本来就在云上,或者它本身对云原生非常友好,并且过去可能做了一些储备。另外,它没有什么技术债务。最后,它本身体量没有很大,这样就比较容易使用云原生。这些因素促成了我们偏小一点的业务,反而在云原生上进展更快。”他说。
据悉,除了 Lazada,阿里考拉也已经实现了全面的云原生化。它们就是所谓的“云原生样板间”。
云原生样板间一个很大的作用是它要去选择哪些产品在什么场景下是可以用的,更适合阿里集团的业务。第一,它要选产品,把路趟出来。第二,它要去构建一些基于云的体系,比如企业 IT 治理。在这样的标杆业务上,它会去沉淀出体系来,沉淀出和云对接的关于 IT 治理方面的能力。
丁宇强调,“我们的最终目标是可以踏踏实实地沉淀了一些系统,包括发布、变更、升级的系统,如何使用云产品的系统,如何在云上构建 IT 治理的系统,更快地做好云原生上云的沉淀。”
原则:坚持二八原则
在阿里经济体中,淘宝和天猫的核心系统已经实现云原生化,但非核心系统还没有云原生化。丁宇说,“对阿里来讲,云原生化是没有办法达到百分百的。”
任何一家企业,尤其是规模越大、历史沉淀越多的企业,一定会有一些技术债务,“像阿里这样的企业也不可能百分百所有的技术全都云原生,全都使用阿里云的产品。如果真要这么做,它将面临一个巨大的技术债”。
据云原生技术委员会的估计,阿里集团使用到的 80% 的技术会全面的切换到云原生产品。“做到 80% 就是一个非常好的状态,因为它确实是非常复杂的结构,非常庞大的体系。我们不可能把所有的技术全切到云原生产品,一定会存在个性化、定制化的部分“。
云原生的动作会先从核心系统开始。因为核心系统人员更充沛,得到更多重视,并对技术有更极致的要求,所以它有一定的人员去更好的做新技术的尝试、迭代和落地。核心系统形成标杆后,就要复制到非核心或周边的体系,覆盖这些系统。
而还有 20% 不会全面云原生化。云原生技术委员会的判断标准是,它不是一个行业客户的需求,不是一个通用需求。可能在特定场景下,在特定规模下的特定技术不要求云原生,“相当于它要支撑业务发展,支撑业务的个性化要求,我们就保留这样的技术,大概是一个二八原则”。
丁宇表示,“从应用和系统的覆盖度来说,一定会做到百分百,但从技术层次的覆盖来讲,我们不会做到百分百。如果从时间上看,未来 1-2 年,我们会把覆盖度做到百分百,阿里的系统都要云原生化,这是确定的。但是,对于不同的 BU、不同的系统,是 90% 用云原生产品来构建它的体系,还是 70%,这存在一个相对较大的权衡空间。”
我有一个观点,2013 年后成立的公司,是可以百分百云原生化,因为没有什么历史包袱,没有特别多的技术债务。哪些部分可以云原生化,哪些部分可以上云,哪些部分可以保留自己一些特定的能力,这个裁量权应该交给企业,交给企业的技术决策者。——丁宇
自证预言
虽然今天阿里在云原生上走得很远,但是回看 2010 年或 2015 年,谁也无法 100% 保证云计算一定会向云原生方向演进。
阿里有一句话叫自证预言。它的意思是你先提出预言,然后证明这是一个正确方向并将其落地。在丁宇看来,“最开始,我们没有提出云原生,但从 2009 年落地分布式、互联网中间件,到 2011 年开始落地容器化。我觉得云原生是一个偏前瞻性的、价值驱动的理念。在这个前提下,我们继续往前走。”
“做技术的过程中,我们不断打造一些标准,去迎合一些标准,不断地修正我们做的事情,就走到了今天。事实证明,我们其实没有走错,也释放了很多价值,而且在整个行业中,也有非常多的、海量的诉求,所以我不担心走错,因为我们有快速修正、及时纠错纠偏的能力。”他坦承说。
写在最后
站在今天看,云原生已经成为云计算的下一站,它是云计算的再升级。正如丁宇所言,“云原生还会有更多的创新,有更多的产品技术。从企业客户和开发者角度,云原生是云计算释放红利的最短路径,是企业数字化的最短路径。”
而在云原生时代,云计算会持续地向前演进。“下一个十年,我希望能真正释放云的红利,最重要的还是让更多的人用上云或理解云,降低整个 IT 开发或研发门槛。比如,我可能几块钱就租个虚拟机,5 分钟就能上手,编写自己的应用。只有这样,我觉得云计算才能真正地进入到我们生活的方方面面,通过开发者的手为我们的企业和社会创造更大的价值。”何征宇说。
评论