写点什么

三年节省 4419 万元,一场 IT 降本增效的沙盘演练

  • 2024-06-14
    北京
  • 本文字数:4998 字

    阅读完需:约 16 分钟

大小:2.60M时长:15:07
三年节省4419万元,一场IT降本增效的沙盘演练

野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线。


文|游勇

编|周路平


IT 支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让 IT 降本增效变得更加迫切。


以前,大量企业的业务高速增长,发展的红利使得很多 IT 建设粗放式发展,很少人在意资源利用率的提升。但现在,野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线


01 一场 IT 降本增效的沙盘演练


从物理机到虚拟机,再到现在的容器化,IT 基础架构这些年一直在朝着敏捷、弹性、稳定的方向演进。而这些新的 IT 技术和架构到底带来了怎样的效果,一直是行业密切关注的话题。


不久前,全球知名独立咨询机构 Forrester 访谈了多位腾讯云容器服务 TKE 的客户,并且基于访谈信息,采用 Forrester 研发的 TEI(Total Economic Impact)方法论,发布了国内首份容器服务总体经济影响报告。TKE 是基于原生的 K8s 容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造的一个企业级的 PaaS 服务。


为了验证这套模型的效果,Forrester 模拟了一家年营收 4.5 亿元左右的企业。这家企业的特点是业务范围覆盖全国,技术团队规模在百人以上,计划在三年时间完成 90%以上服务和应用的容器化改造。


这场沙盘演练围绕着企业基础 IT 建设普遍关注的几个核心指标——基础设施成本、运维成本、应用开发的效率以及系统稳定性,在容器化之后,这些方面都得到了大幅提升



首先是计算资源的成本节省超过 70%。由于 TKE 容器的弹性调度能力,使得企业不用再购买备用机器,可以根据业务按需调用,而且容器化程度越深,TKE 用量越大,机器节省的成本也逐年增加,三年累计收益达到 1771 万元


其次是日常运维负担降低了 50%以上,峰值运维负担降低 98%。TKE 使运维人效成倍数增长,将耗时多日的扩缩容工作转化为分钟级的自动化、平台化操作。这部分的收益在三年时间为 914 万元


一位协同办公行业的业务副总经理直言,“我们的扩容效率提升非常明显,能做到一小时扩容 10 万核,即从提出申请到扩容全部完成只需要一个小时,如果除去其中申请和协调资源的时间,利用 TKE 扩容只需要十分钟。”


再者是应用开发效率的提升。容器的标准化和易迁移特性,让研发不用操心服务器的操作系统差异,能实现新应用、新功能的快速部署上线,迭代效率提升 90%以上。对于一家拥有 90 名研发人员的组织而言,这部分在三年时间产生的收益达到 3092 万元


最后是稳定性的收益,通过自动化预测、告警与修复故障,每年服务中断时间减少 42.6 小时,由此得以增加的运营利润达到 183 万元


也就是说,这家年营收 4.5 亿元的复合式组织,三年内的总收益达到了 5960 万元。而该组织需要为此付出的成本——包括订阅费、部署实施费、学习成本是 1541 万元。两者相减,得到的净收益达到了 4419 万元,投资回报率高达 287%


而 Forrester 经过一系列严谨的测算之后,通过抽象提炼,最终形成了一套有普适性的模型。腾讯云也基于这套模型推出了容器服务的 ROI 计算器,客户只要输入各自的业务真实情况,能非常直观地看到三年后带来的收益。


这个沙盘演练的效果,在降本增效成为企业主旋律的当下,提供了一个非常有价值的参考。


更关键的是,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用 TKE 容器化服务前后的特点和效果。


一是充分考虑了容器化改造的不同阶段。容器化比例没有简单粗暴地设计在一年内完成,而是逐年提高,这也符合目前企业对容器化改造的一个特点,循序渐进,逐步看到效果。


二是对收益和成本进行了细致的拆分。比如复合式组织设定了每年有三次大型流量峰值,每次峰值需要投入 32 个小时进行提前扩容准备;同时对运维人员和研发人员的时薪做了不同设计,甚至把薪资涨幅也都设计在内。而且也考虑了企业进行容器化改造产生的实施成本和技术人员对 K8s 容器技术的学习成本。


三是未将不可量化的收益纳入其中。企业在进行云原生容器化改造后,其实不仅有可量化的收益,也有很多不可量化的收益,包括客户满意度的提高,技术团队更流畅的协作和工作状态的提升等。但这套模型并没有将不可量化的收益统计在内,而这些效果确实在诸多企业的实际业务中真实存在。


甚至考虑到企业在现实业务中的复杂性和各种风险因素,Forrester 还给每项收益下调了 10%,成本则调高了 10%。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。


02 云原生已经成为共识


Forrester 的这份研究报告背后,让外界进一步看到,以 K8s 容器为代表的云原生技术能够有效疏解企业在 IT 降本增效、弹性伸缩方面的心头之痛。


此前,有机构统计过一个很残酷的数字:国内数据中心 CPU 利用率仅为 10%左右。IT 资源利用率不高的背后,与传统 IT 架构的特性有很大关系。不管是物理机还是虚拟机,其应用、操作系统和基础设施之间很多是紧耦合的关系,不够弹性。


在单体机架构下,每台服务器只运行一个应用程序。后来的虚拟机虽然允许一台服务器运行多个应用程序,在一定程度上解决了服务器资源浪费的问题,但每台虚拟机都有自己的操作系统,会消耗大量与计算不相关的资源,不仅造成了浪费,而且启动速度也很慢。


腾讯当年在业务全面上云之前,也遇到类似的难题。每个业务部门为了应对突发的流量,在升级服务器资源时会留出资源缓冲区,这是 IT 部门的常规操作。但当所有的缓冲区叠加在一起,就形成了大量的闲置资源浪费。


而对于业务还在不断增长或者业务波峰波谷比较明显的企业而言,这样的痛感来得更加真实。


现在,云原生的架构能实现系统的敏捷部署、弹性扩展、动态迁移、故障自愈等。而容器作为云原生的代表性技术之一,实现了应用与运行环境的解耦。相比于物理机、虚拟机,一个容器就是一个应用程序,它将所有文件配置以及运行所需要的必要文件打包到一起,这意味着它只打包了计算环境所需要的内容。而基于开源容器编排引擎 K8s,能够实现了容器的自动部署,扩展和管理。



其优势已经非常明显,比如解决异构环境一致性问题、更高的机器资源利用率等,几个简单的命令就可以在单机上管理容器。比如,它可以自动调度和自动修复,可以运行在 k8s 集群中的任一节点,而且某一个服务器挂了,可以自动调度到另外一台主机上运行,无需人工干涉。


另外,成本上也有优势,容器按量计费,Pod 销毁了就不收费,计费粒度是秒级的,但虚拟机不一样,它的生命周期更重一些,弹性能力也比容器差,计费粒度也更粗。


一位信息通信行业的云服务运维负责人透露,他们在使用了腾讯云容器服务 TKE 之后,业务高峰期的扩容只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作。


如今,以容器、微服务等为代表的云原生技术已经成为企业技术选型的共识。一位管理软件的高管告诉数智前线,客户现在都默认你用的就是云原生方案,已经不需要再去特别强调的事。


在 Forrester 2022 年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来 12 个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为 53%。


应用容器化率也在逐年攀升。2020 年容器超过虚拟机成为企业部署计算的最小单元。据 Gartner 预测,到 2025 年,85%的组织将在生产环境中使用容器


腾讯作为国内最早上线容器服务 TKE 的企业之一,这次与 Forrester 联合发布业内首份容器经济影响报告,并推出 ROI 计算器,将让各行业进一步看到直观、系统地看到云原生带来的价值,从而加速容器化率的提升


其实早在 2016 年,腾讯就开始启动基于 K8s 的 TKE 项目。到目前为止,腾讯云 TKE 已经为上万企业客户提供容器化平台,单集群支持上万个节点。除了腾讯自己,包括快手、小红书也接入了腾讯云的容器服务,都取得了实打实的效果。


今年 4 月,腾讯云入选 Gartner 容器客户之声亚太区“卓越表现者”象限。在 8 家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业


03 TKE 如何帮助企业降本增效


其实,在 Forrester 产出这份报告之前,腾讯云 TKE 已经在腾讯内部和外部客户的业务中得到了检验


2022 年,腾讯宣布完成了自研业务全面上云,成了国内最大的云原生实践。


但在自研业务上云初期,腾讯也经历过很多企业都面临的困境,比如习惯“堆机器”,把物理机原封不动搬到云上,或者直接把容器当虚拟机用,整个架构和代码不需要任何的改造,但违背了云原生的初衷,云的价值完全没有发挥出来。尤其是当实例变得又大又复杂时,没法快速启停,影响了弹性扩缩容的效率。


但很快,腾讯基于腾讯云 TKE,开启了真正的云原生之旅。


腾讯一开始先将离线业务容器化,比如基于滚动的发布,对自研业务的灰度测试非常关键,比如动态路由能力,实现路由的自动化。然后是在线业务容器化,实现自定义工作负载,保证 Pod 容器的中断时间控制在一秒以内,实现原地无感知的升级扩容。


过去几年的努力,腾讯内部 95%的业务都放在可调度的公共集群里。而腾讯云 TKE 的落地规模已经超过 5000 万核,累计为腾讯节省了数十亿元成本。而且,即便面对腾讯如此庞大且复杂的业务体量,TKE 平台从始至终没有遇到过大的故障。


对于还在观望的企业而言,腾讯自己提供了一个很好的云原生转型范本。


作为国内最大的房产中介平台,贝壳一直对新的 IT 技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云 TKE 有一些小规模合作。但起初用的是 TKE 普通节点,本质上是在虚拟机上部署一些托管的 K8s 能力,效果并不明显。



2023 年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中 4 指的是计算集群利用率提升到 40%。


“容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。


很快,贝壳接入了腾讯云 TKE 的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE 原生节点帮助贝壳解决了三个核心问题:


首先是 Request 配置。在创建 K8s 集群的工作负载时,通常需要配置合适的资源,Request 是下限,指的是容器需要保留的最小资源量;limits 是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。


腾讯云 TKE 原生节点的“成本大师”推出了 Request 智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的 Request 配置,确保资源得到合理利用。


其次,在节点放大之后,容易遇到稳定性问题,考验 TKE 资源如何调度。比如 K8S 集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云 TKE 原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加 CPU 和内存资源。


三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群 24 小时运转,就需要把在线和离线业务混在一起运行。


同时,腾讯云 TKE 在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。


最终,在 TKE 原生节点的支持下,贝壳的资源利用率从去年年初的峰值不到 25%,到年底提升到了 40%


“容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云 TKE 在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。


在线教育平台作业帮也是一家非常典型的客户。作为一家月活用户约 1.7 亿的在线教育公司,学生学习的时间集中在周末和放学之后,波峰波谷非常鲜明,高峰时段的流量是平时峰段的 20 倍,是低峰时段(凌晨到 5 点左右)的上百倍。


所以,作业帮对资源弹性调度的诉求非常高。作业帮从 2020 年开始将部分业务逐渐接入腾讯云容器服务 TKE,涉及数千业务应用,数十万计算核数。通过 HPA 机制、离在线混部、共享 GPU 等腾讯云 TKE 提供的一套整体解决方案,作业帮的节点平均 CPU 利用率从 10%提升到 30%,成本下降 40%,接口响应提升 10%。


当然,除了被广泛使用的 TKE 原生节点,腾讯云也针对企业 Serverless 和大模型的需求,衍生出了 TKE 超级节点和 SCF on K8s 等新的产品形态


IT 的降本增效从来不是一朝一夕能做完的事,需要企业根据自身业务特点持续地推进和优化,当然也需要技术服务商及时地捕捉和响应市场的需求。



文章来源:公众号【数智前线(szqx1991)】

2024-06-14 13:338729

评论

发布
暂无评论
发现更多内容

极客大学架构师训练营第一期第八周总结

睡不着摇一摇

架构师一期

“懂行”的价值循环与蝴蝶风暴

脑极体

【Mycat】Mycat核心开发者带你轻松掌握Mycat路由转发!!

冰河

分布式 微服务 分库分表 中间件 mycat

架构师训练营 - 第四周学习总结

joshuamai

你以为只是简单的排序?(一)

书旅

数据结构与算法 Go 语言

作业-第4周总结

arcyao

第八周课后练习

knight

成为架构师 - 架构师训练营第 04周

陈永龙Vincent

架构师训练营 第四周作业

文江

在线IDE开发入门之从零实现一个在线代码编辑器

徐小夕

Java ide H5 H5制作 代码编辑器

【JAVA】TreeSet, LinkedHashSet和HashSet差异对比

笑春风

第八周总结

alpha

极客大学架构师训练营

《身边的金钱心理学》

石云升

训练营第四周作业

大脸猫

极客大学架构师训练营

架构师训练营第 8 周学习总结

netspecial

极客大学架构师训练营

第八章作业

alpha

极客大学架构师训练营

【可下载】2020年底收官!为大家整理了物联网行业全面研究报告、行业洞察、白皮书……

IoT云工坊

人工智能 大数据 5G 物联网 智能家居

第四周作业

Jack

高交会:高新企业源中瑞在此出展区块链BAAS技术

13530558032

基于f2从零实现移动端可视化编辑器

徐小夕

Java H5 数据可视化 h5编辑器 H5制作

python+requests进行get、post方法接口测试

测试人生路

Python 接口测试

作业-第4周

arcyao

《Web应用安全权威指南》.pdf

田维常

架构师训练营第 1 期 - 第八周总结

Todd-Lee

极客大学架构师训练营

腾讯强推Redis成长手册!原理+应用+集群+拓展+源码五飞

小Q

Java redis 学习 架构 面试

家谱链亮相高交会,点亮“区块链+文化”融合发展之路

13530558032

训练营第四周总结

大脸猫

极客大学架构师训练营

目标检测-darknet 之模型初始化

Dreamer

面试官最常用小心思:说说你的项目并发量多大?负载均衡怎么做?

小Q

Java Linux 学习 面试 并发

架构师训练营第 8 周作业

netspecial

极客大学架构师训练营

JVM真香系列:图解垃圾回收器

田维常

JVM 垃圾回收

三年节省4419万元,一场IT降本增效的沙盘演练_腾讯_腾讯云_InfoQ精选文章