野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线。
文|游勇
编|周路平
IT 支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让 IT 降本增效变得更加迫切。
以前,大量企业的业务高速增长,发展的红利使得很多 IT 建设粗放式发展,很少人在意资源利用率的提升。但现在,野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线。
01 一场 IT 降本增效的沙盘演练
从物理机到虚拟机,再到现在的容器化,IT 基础架构这些年一直在朝着敏捷、弹性、稳定的方向演进。而这些新的 IT 技术和架构到底带来了怎样的效果,一直是行业密切关注的话题。
不久前,全球知名独立咨询机构 Forrester 访谈了多位腾讯云容器服务 TKE 的客户,并且基于访谈信息,采用 Forrester 研发的 TEI(Total Economic Impact)方法论,发布了国内首份容器服务总体经济影响报告。TKE 是基于原生的 K8s 容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造的一个企业级的 PaaS 服务。
为了验证这套模型的效果,Forrester 模拟了一家年营收 4.5 亿元左右的企业。这家企业的特点是业务范围覆盖全国,技术团队规模在百人以上,计划在三年时间完成 90%以上服务和应用的容器化改造。
这场沙盘演练围绕着企业基础 IT 建设普遍关注的几个核心指标——基础设施成本、运维成本、应用开发的效率以及系统稳定性,在容器化之后,这些方面都得到了大幅提升。
首先是计算资源的成本节省超过 70%。由于 TKE 容器的弹性调度能力,使得企业不用再购买备用机器,可以根据业务按需调用,而且容器化程度越深,TKE 用量越大,机器节省的成本也逐年增加,三年累计收益达到 1771 万元。
其次是日常运维负担降低了 50%以上,峰值运维负担降低 98%。TKE 使运维人效成倍数增长,将耗时多日的扩缩容工作转化为分钟级的自动化、平台化操作。这部分的收益在三年时间为 914 万元。
一位协同办公行业的业务副总经理直言,“我们的扩容效率提升非常明显,能做到一小时扩容 10 万核,即从提出申请到扩容全部完成只需要一个小时,如果除去其中申请和协调资源的时间,利用 TKE 扩容只需要十分钟。”
再者是应用开发效率的提升。容器的标准化和易迁移特性,让研发不用操心服务器的操作系统差异,能实现新应用、新功能的快速部署上线,迭代效率提升 90%以上。对于一家拥有 90 名研发人员的组织而言,这部分在三年时间产生的收益达到 3092 万元。
最后是稳定性的收益,通过自动化预测、告警与修复故障,每年服务中断时间减少 42.6 小时,由此得以增加的运营利润达到 183 万元。
也就是说,这家年营收 4.5 亿元的复合式组织,三年内的总收益达到了 5960 万元。而该组织需要为此付出的成本——包括订阅费、部署实施费、学习成本是 1541 万元。两者相减,得到的净收益达到了 4419 万元,投资回报率高达 287%。
而 Forrester 经过一系列严谨的测算之后,通过抽象提炼,最终形成了一套有普适性的模型。腾讯云也基于这套模型推出了容器服务的 ROI 计算器,客户只要输入各自的业务真实情况,能非常直观地看到三年后带来的收益。
这个沙盘演练的效果,在降本增效成为企业主旋律的当下,提供了一个非常有价值的参考。
更关键的是,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用 TKE 容器化服务前后的特点和效果。
一是充分考虑了容器化改造的不同阶段。容器化比例没有简单粗暴地设计在一年内完成,而是逐年提高,这也符合目前企业对容器化改造的一个特点,循序渐进,逐步看到效果。
二是对收益和成本进行了细致的拆分。比如复合式组织设定了每年有三次大型流量峰值,每次峰值需要投入 32 个小时进行提前扩容准备;同时对运维人员和研发人员的时薪做了不同设计,甚至把薪资涨幅也都设计在内。而且也考虑了企业进行容器化改造产生的实施成本和技术人员对 K8s 容器技术的学习成本。
三是未将不可量化的收益纳入其中。企业在进行云原生容器化改造后,其实不仅有可量化的收益,也有很多不可量化的收益,包括客户满意度的提高,技术团队更流畅的协作和工作状态的提升等。但这套模型并没有将不可量化的收益统计在内,而这些效果确实在诸多企业的实际业务中真实存在。
甚至考虑到企业在现实业务中的复杂性和各种风险因素,Forrester 还给每项收益下调了 10%,成本则调高了 10%。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。
02 云原生已经成为共识
Forrester 的这份研究报告背后,让外界进一步看到,以 K8s 容器为代表的云原生技术能够有效疏解企业在 IT 降本增效、弹性伸缩方面的心头之痛。
此前,有机构统计过一个很残酷的数字:国内数据中心 CPU 利用率仅为 10%左右。IT 资源利用率不高的背后,与传统 IT 架构的特性有很大关系。不管是物理机还是虚拟机,其应用、操作系统和基础设施之间很多是紧耦合的关系,不够弹性。
在单体机架构下,每台服务器只运行一个应用程序。后来的虚拟机虽然允许一台服务器运行多个应用程序,在一定程度上解决了服务器资源浪费的问题,但每台虚拟机都有自己的操作系统,会消耗大量与计算不相关的资源,不仅造成了浪费,而且启动速度也很慢。
腾讯当年在业务全面上云之前,也遇到类似的难题。每个业务部门为了应对突发的流量,在升级服务器资源时会留出资源缓冲区,这是 IT 部门的常规操作。但当所有的缓冲区叠加在一起,就形成了大量的闲置资源浪费。
而对于业务还在不断增长或者业务波峰波谷比较明显的企业而言,这样的痛感来得更加真实。
现在,云原生的架构能实现系统的敏捷部署、弹性扩展、动态迁移、故障自愈等。而容器作为云原生的代表性技术之一,实现了应用与运行环境的解耦。相比于物理机、虚拟机,一个容器就是一个应用程序,它将所有文件配置以及运行所需要的必要文件打包到一起,这意味着它只打包了计算环境所需要的内容。而基于开源容器编排引擎 K8s,能够实现了容器的自动部署,扩展和管理。
其优势已经非常明显,比如解决异构环境一致性问题、更高的机器资源利用率等,几个简单的命令就可以在单机上管理容器。比如,它可以自动调度和自动修复,可以运行在 k8s 集群中的任一节点,而且某一个服务器挂了,可以自动调度到另外一台主机上运行,无需人工干涉。
另外,成本上也有优势,容器按量计费,Pod 销毁了就不收费,计费粒度是秒级的,但虚拟机不一样,它的生命周期更重一些,弹性能力也比容器差,计费粒度也更粗。
一位信息通信行业的云服务运维负责人透露,他们在使用了腾讯云容器服务 TKE 之后,业务高峰期的扩容只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作。
如今,以容器、微服务等为代表的云原生技术已经成为企业技术选型的共识。一位管理软件的高管告诉数智前线,客户现在都默认你用的就是云原生方案,已经不需要再去特别强调的事。
在 Forrester 2022 年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来 12 个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为 53%。
应用容器化率也在逐年攀升。2020 年容器超过虚拟机成为企业部署计算的最小单元。据 Gartner 预测,到 2025 年,85%的组织将在生产环境中使用容器。
腾讯作为国内最早上线容器服务 TKE 的企业之一,这次与 Forrester 联合发布业内首份容器经济影响报告,并推出 ROI 计算器,将让各行业进一步看到直观、系统地看到云原生带来的价值,从而加速容器化率的提升。
其实早在 2016 年,腾讯就开始启动基于 K8s 的 TKE 项目。到目前为止,腾讯云 TKE 已经为上万企业客户提供容器化平台,单集群支持上万个节点。除了腾讯自己,包括快手、小红书也接入了腾讯云的容器服务,都取得了实打实的效果。
今年 4 月,腾讯云入选 Gartner 容器客户之声亚太区“卓越表现者”象限。在 8 家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业。
03 TKE 如何帮助企业降本增效
其实,在 Forrester 产出这份报告之前,腾讯云 TKE 已经在腾讯内部和外部客户的业务中得到了检验。
2022 年,腾讯宣布完成了自研业务全面上云,成了国内最大的云原生实践。
但在自研业务上云初期,腾讯也经历过很多企业都面临的困境,比如习惯“堆机器”,把物理机原封不动搬到云上,或者直接把容器当虚拟机用,整个架构和代码不需要任何的改造,但违背了云原生的初衷,云的价值完全没有发挥出来。尤其是当实例变得又大又复杂时,没法快速启停,影响了弹性扩缩容的效率。
但很快,腾讯基于腾讯云 TKE,开启了真正的云原生之旅。
腾讯一开始先将离线业务容器化,比如基于滚动的发布,对自研业务的灰度测试非常关键,比如动态路由能力,实现路由的自动化。然后是在线业务容器化,实现自定义工作负载,保证 Pod 容器的中断时间控制在一秒以内,实现原地无感知的升级扩容。
过去几年的努力,腾讯内部 95%的业务都放在可调度的公共集群里。而腾讯云 TKE 的落地规模已经超过 5000 万核,累计为腾讯节省了数十亿元成本。而且,即便面对腾讯如此庞大且复杂的业务体量,TKE 平台从始至终没有遇到过大的故障。
对于还在观望的企业而言,腾讯自己提供了一个很好的云原生转型范本。
作为国内最大的房产中介平台,贝壳一直对新的 IT 技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云 TKE 有一些小规模合作。但起初用的是 TKE 普通节点,本质上是在虚拟机上部署一些托管的 K8s 能力,效果并不明显。
2023 年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中 4 指的是计算集群利用率提升到 40%。
“容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。
很快,贝壳接入了腾讯云 TKE 的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE 原生节点帮助贝壳解决了三个核心问题:
首先是 Request 配置。在创建 K8s 集群的工作负载时,通常需要配置合适的资源,Request 是下限,指的是容器需要保留的最小资源量;limits 是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。
腾讯云 TKE 原生节点的“成本大师”推出了 Request 智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的 Request 配置,确保资源得到合理利用。
其次,在节点放大之后,容易遇到稳定性问题,考验 TKE 资源如何调度。比如 K8S 集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云 TKE 原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加 CPU 和内存资源。
三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群 24 小时运转,就需要把在线和离线业务混在一起运行。
同时,腾讯云 TKE 在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。
最终,在 TKE 原生节点的支持下,贝壳的资源利用率从去年年初的峰值不到 25%,到年底提升到了 40%。
“容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云 TKE 在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。
在线教育平台作业帮也是一家非常典型的客户。作为一家月活用户约 1.7 亿的在线教育公司,学生学习的时间集中在周末和放学之后,波峰波谷非常鲜明,高峰时段的流量是平时峰段的 20 倍,是低峰时段(凌晨到 5 点左右)的上百倍。
所以,作业帮对资源弹性调度的诉求非常高。作业帮从 2020 年开始将部分业务逐渐接入腾讯云容器服务 TKE,涉及数千业务应用,数十万计算核数。通过 HPA 机制、离在线混部、共享 GPU 等腾讯云 TKE 提供的一套整体解决方案,作业帮的节点平均 CPU 利用率从 10%提升到 30%,成本下降 40%,接口响应提升 10%。
当然,除了被广泛使用的 TKE 原生节点,腾讯云也针对企业 Serverless 和大模型的需求,衍生出了 TKE 超级节点和 SCF on K8s 等新的产品形态。
IT 的降本增效从来不是一朝一夕能做完的事,需要企业根据自身业务特点持续地推进和优化,当然也需要技术服务商及时地捕捉和响应市场的需求。
文章来源:公众号【数智前线(szqx1991)】
评论