HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

三年节省 4419 万元,一场 IT 降本增效的沙盘演练

  • 2024-06-14
    北京
  • 本文字数:4998 字

    阅读完需:约 16 分钟

大小:2.60M时长:15:07
三年节省4419万元,一场IT降本增效的沙盘演练

野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线。


文|游勇

编|周路平


IT 支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让 IT 降本增效变得更加迫切。


以前,大量企业的业务高速增长,发展的红利使得很多 IT 建设粗放式发展,很少人在意资源利用率的提升。但现在,野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线


01 一场 IT 降本增效的沙盘演练


从物理机到虚拟机,再到现在的容器化,IT 基础架构这些年一直在朝着敏捷、弹性、稳定的方向演进。而这些新的 IT 技术和架构到底带来了怎样的效果,一直是行业密切关注的话题。


不久前,全球知名独立咨询机构 Forrester 访谈了多位腾讯云容器服务 TKE 的客户,并且基于访谈信息,采用 Forrester 研发的 TEI(Total Economic Impact)方法论,发布了国内首份容器服务总体经济影响报告。TKE 是基于原生的 K8s 容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造的一个企业级的 PaaS 服务。


为了验证这套模型的效果,Forrester 模拟了一家年营收 4.5 亿元左右的企业。这家企业的特点是业务范围覆盖全国,技术团队规模在百人以上,计划在三年时间完成 90%以上服务和应用的容器化改造。


这场沙盘演练围绕着企业基础 IT 建设普遍关注的几个核心指标——基础设施成本、运维成本、应用开发的效率以及系统稳定性,在容器化之后,这些方面都得到了大幅提升



首先是计算资源的成本节省超过 70%。由于 TKE 容器的弹性调度能力,使得企业不用再购买备用机器,可以根据业务按需调用,而且容器化程度越深,TKE 用量越大,机器节省的成本也逐年增加,三年累计收益达到 1771 万元


其次是日常运维负担降低了 50%以上,峰值运维负担降低 98%。TKE 使运维人效成倍数增长,将耗时多日的扩缩容工作转化为分钟级的自动化、平台化操作。这部分的收益在三年时间为 914 万元


一位协同办公行业的业务副总经理直言,“我们的扩容效率提升非常明显,能做到一小时扩容 10 万核,即从提出申请到扩容全部完成只需要一个小时,如果除去其中申请和协调资源的时间,利用 TKE 扩容只需要十分钟。”


再者是应用开发效率的提升。容器的标准化和易迁移特性,让研发不用操心服务器的操作系统差异,能实现新应用、新功能的快速部署上线,迭代效率提升 90%以上。对于一家拥有 90 名研发人员的组织而言,这部分在三年时间产生的收益达到 3092 万元


最后是稳定性的收益,通过自动化预测、告警与修复故障,每年服务中断时间减少 42.6 小时,由此得以增加的运营利润达到 183 万元


也就是说,这家年营收 4.5 亿元的复合式组织,三年内的总收益达到了 5960 万元。而该组织需要为此付出的成本——包括订阅费、部署实施费、学习成本是 1541 万元。两者相减,得到的净收益达到了 4419 万元,投资回报率高达 287%


而 Forrester 经过一系列严谨的测算之后,通过抽象提炼,最终形成了一套有普适性的模型。腾讯云也基于这套模型推出了容器服务的 ROI 计算器,客户只要输入各自的业务真实情况,能非常直观地看到三年后带来的收益。


这个沙盘演练的效果,在降本增效成为企业主旋律的当下,提供了一个非常有价值的参考。


更关键的是,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用 TKE 容器化服务前后的特点和效果。


一是充分考虑了容器化改造的不同阶段。容器化比例没有简单粗暴地设计在一年内完成,而是逐年提高,这也符合目前企业对容器化改造的一个特点,循序渐进,逐步看到效果。


二是对收益和成本进行了细致的拆分。比如复合式组织设定了每年有三次大型流量峰值,每次峰值需要投入 32 个小时进行提前扩容准备;同时对运维人员和研发人员的时薪做了不同设计,甚至把薪资涨幅也都设计在内。而且也考虑了企业进行容器化改造产生的实施成本和技术人员对 K8s 容器技术的学习成本。


三是未将不可量化的收益纳入其中。企业在进行云原生容器化改造后,其实不仅有可量化的收益,也有很多不可量化的收益,包括客户满意度的提高,技术团队更流畅的协作和工作状态的提升等。但这套模型并没有将不可量化的收益统计在内,而这些效果确实在诸多企业的实际业务中真实存在。


甚至考虑到企业在现实业务中的复杂性和各种风险因素,Forrester 还给每项收益下调了 10%,成本则调高了 10%。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。


02 云原生已经成为共识


Forrester 的这份研究报告背后,让外界进一步看到,以 K8s 容器为代表的云原生技术能够有效疏解企业在 IT 降本增效、弹性伸缩方面的心头之痛。


此前,有机构统计过一个很残酷的数字:国内数据中心 CPU 利用率仅为 10%左右。IT 资源利用率不高的背后,与传统 IT 架构的特性有很大关系。不管是物理机还是虚拟机,其应用、操作系统和基础设施之间很多是紧耦合的关系,不够弹性。


在单体机架构下,每台服务器只运行一个应用程序。后来的虚拟机虽然允许一台服务器运行多个应用程序,在一定程度上解决了服务器资源浪费的问题,但每台虚拟机都有自己的操作系统,会消耗大量与计算不相关的资源,不仅造成了浪费,而且启动速度也很慢。


腾讯当年在业务全面上云之前,也遇到类似的难题。每个业务部门为了应对突发的流量,在升级服务器资源时会留出资源缓冲区,这是 IT 部门的常规操作。但当所有的缓冲区叠加在一起,就形成了大量的闲置资源浪费。


而对于业务还在不断增长或者业务波峰波谷比较明显的企业而言,这样的痛感来得更加真实。


现在,云原生的架构能实现系统的敏捷部署、弹性扩展、动态迁移、故障自愈等。而容器作为云原生的代表性技术之一,实现了应用与运行环境的解耦。相比于物理机、虚拟机,一个容器就是一个应用程序,它将所有文件配置以及运行所需要的必要文件打包到一起,这意味着它只打包了计算环境所需要的内容。而基于开源容器编排引擎 K8s,能够实现了容器的自动部署,扩展和管理。



其优势已经非常明显,比如解决异构环境一致性问题、更高的机器资源利用率等,几个简单的命令就可以在单机上管理容器。比如,它可以自动调度和自动修复,可以运行在 k8s 集群中的任一节点,而且某一个服务器挂了,可以自动调度到另外一台主机上运行,无需人工干涉。


另外,成本上也有优势,容器按量计费,Pod 销毁了就不收费,计费粒度是秒级的,但虚拟机不一样,它的生命周期更重一些,弹性能力也比容器差,计费粒度也更粗。


一位信息通信行业的云服务运维负责人透露,他们在使用了腾讯云容器服务 TKE 之后,业务高峰期的扩容只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作。


如今,以容器、微服务等为代表的云原生技术已经成为企业技术选型的共识。一位管理软件的高管告诉数智前线,客户现在都默认你用的就是云原生方案,已经不需要再去特别强调的事。


在 Forrester 2022 年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来 12 个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为 53%。


应用容器化率也在逐年攀升。2020 年容器超过虚拟机成为企业部署计算的最小单元。据 Gartner 预测,到 2025 年,85%的组织将在生产环境中使用容器


腾讯作为国内最早上线容器服务 TKE 的企业之一,这次与 Forrester 联合发布业内首份容器经济影响报告,并推出 ROI 计算器,将让各行业进一步看到直观、系统地看到云原生带来的价值,从而加速容器化率的提升


其实早在 2016 年,腾讯就开始启动基于 K8s 的 TKE 项目。到目前为止,腾讯云 TKE 已经为上万企业客户提供容器化平台,单集群支持上万个节点。除了腾讯自己,包括快手、小红书也接入了腾讯云的容器服务,都取得了实打实的效果。


今年 4 月,腾讯云入选 Gartner 容器客户之声亚太区“卓越表现者”象限。在 8 家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业


03 TKE 如何帮助企业降本增效


其实,在 Forrester 产出这份报告之前,腾讯云 TKE 已经在腾讯内部和外部客户的业务中得到了检验


2022 年,腾讯宣布完成了自研业务全面上云,成了国内最大的云原生实践。


但在自研业务上云初期,腾讯也经历过很多企业都面临的困境,比如习惯“堆机器”,把物理机原封不动搬到云上,或者直接把容器当虚拟机用,整个架构和代码不需要任何的改造,但违背了云原生的初衷,云的价值完全没有发挥出来。尤其是当实例变得又大又复杂时,没法快速启停,影响了弹性扩缩容的效率。


但很快,腾讯基于腾讯云 TKE,开启了真正的云原生之旅。


腾讯一开始先将离线业务容器化,比如基于滚动的发布,对自研业务的灰度测试非常关键,比如动态路由能力,实现路由的自动化。然后是在线业务容器化,实现自定义工作负载,保证 Pod 容器的中断时间控制在一秒以内,实现原地无感知的升级扩容。


过去几年的努力,腾讯内部 95%的业务都放在可调度的公共集群里。而腾讯云 TKE 的落地规模已经超过 5000 万核,累计为腾讯节省了数十亿元成本。而且,即便面对腾讯如此庞大且复杂的业务体量,TKE 平台从始至终没有遇到过大的故障。


对于还在观望的企业而言,腾讯自己提供了一个很好的云原生转型范本。


作为国内最大的房产中介平台,贝壳一直对新的 IT 技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云 TKE 有一些小规模合作。但起初用的是 TKE 普通节点,本质上是在虚拟机上部署一些托管的 K8s 能力,效果并不明显。



2023 年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中 4 指的是计算集群利用率提升到 40%。


“容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。


很快,贝壳接入了腾讯云 TKE 的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE 原生节点帮助贝壳解决了三个核心问题:


首先是 Request 配置。在创建 K8s 集群的工作负载时,通常需要配置合适的资源,Request 是下限,指的是容器需要保留的最小资源量;limits 是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。


腾讯云 TKE 原生节点的“成本大师”推出了 Request 智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的 Request 配置,确保资源得到合理利用。


其次,在节点放大之后,容易遇到稳定性问题,考验 TKE 资源如何调度。比如 K8S 集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云 TKE 原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加 CPU 和内存资源。


三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群 24 小时运转,就需要把在线和离线业务混在一起运行。


同时,腾讯云 TKE 在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。


最终,在 TKE 原生节点的支持下,贝壳的资源利用率从去年年初的峰值不到 25%,到年底提升到了 40%


“容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云 TKE 在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。


在线教育平台作业帮也是一家非常典型的客户。作为一家月活用户约 1.7 亿的在线教育公司,学生学习的时间集中在周末和放学之后,波峰波谷非常鲜明,高峰时段的流量是平时峰段的 20 倍,是低峰时段(凌晨到 5 点左右)的上百倍。


所以,作业帮对资源弹性调度的诉求非常高。作业帮从 2020 年开始将部分业务逐渐接入腾讯云容器服务 TKE,涉及数千业务应用,数十万计算核数。通过 HPA 机制、离在线混部、共享 GPU 等腾讯云 TKE 提供的一套整体解决方案,作业帮的节点平均 CPU 利用率从 10%提升到 30%,成本下降 40%,接口响应提升 10%。


当然,除了被广泛使用的 TKE 原生节点,腾讯云也针对企业 Serverless 和大模型的需求,衍生出了 TKE 超级节点和 SCF on K8s 等新的产品形态


IT 的降本增效从来不是一朝一夕能做完的事,需要企业根据自身业务特点持续地推进和优化,当然也需要技术服务商及时地捕捉和响应市场的需求。



文章来源:公众号【数智前线(szqx1991)】

2024-06-14 13:337912

评论

发布
暂无评论

马丁策略倍投软件开发,量化倍投系统

自动源代码质量度量(ISO/IEC 5055)

Tom(⊙o⊙)

软件质量 静态分析

网络协议学习笔记 Day2

穿过生命散发芬芳

网络协议 4月日更

Git 常用命令速查

箭上有毒

4月日更

噱头or契机:多端协同游戏的草蛇灰线

脑极体

掉坑了!GROUP_CONCAT函数引发的线上问题

AI乔治

Java MySQL 架构 GROUPING运算符

浅析 Linux 中的 I/O 管理

赖猫

Linux

Flink的状态一致性

大数据技术指南

flink 4月日更

千人万面奇妙自见:爱奇艺短视频推荐技术中多兴趣召回技术的演变

爱奇艺技术产品团队

推荐 短视频 模型 召回

世界读书日,爱奇艺ers的技术产品书单

爱奇艺技术产品团队

读书

大学生调研:在选择工作时,最看重什么?

石云升

28天写作 4月日更 1 周年盛典

Java最前沿技术——ZGC

AI乔治

Java 架构 jdk ZGC JVM

2021年处置非法集资部际联席会议:密切关注打着区块链、虚拟货币等旗号的新型风险

CECBC

如何从零开始学Python:(7)如何解决发布和上传代码过程中遇到的问题?

广之巅

Python 4月日更

苹果(Apple Watch)手表使用必知必会19条

Flychen

苹果手表 IWatch Apple Watch

读书有用吗

孙苏勇

读书

一次用户故事拆分分享

Bruce Talk

敏捷 Agile 用户故事 User Story

这份阿里P8技术专家整理的《一面到底》Java岗,GitHub已标星79k

Java架构之路

Java 程序员 架构 面试 编程语言

4种语义分割数据集Cityscapes上SOTA方法总结

华为云开发者联盟

语义分割 OCR 数据集Cityscapes HRNet SegFix

当区块链遇到工业互联网,浪潮云洲链正在那里

云计算

【得物技术】得物分布式UI自动化实践

得物技术

测试 UI 质量 自动化测试 得物技术

Flink的Checkpoint持久化存储方案

五分钟学大数据

flink 4月日更

LiteOS内核源码分析:动态内存之Bestfit分配算法

华为云开发者联盟

LiteOS Huawei LiteOS 动态内存 Bestfit 分配算法

ShutdownHook原理

捉虫大师

Java

深入汇编指令理解Java关键字volatile

AI乔治

Java 架构 volatile Java内存模型

推荐5个4K视频下载网站 (百万优质资源)

科技猫

网站 分享 视频 经验 资源分享

欢迎 ProForma 的制造商 ThinkTilt 加入 Atlassian 的大家庭!

Atlassian

敏捷 esm ITSM Atlssian JiraServiceManagement

40 图|硬核解析用 Mac M1 玩转 SpringCloud

悟空聊架构

开源 Mac SpringCloud m1 passjava

真的香!Github一夜爆火被各大厂要求直接下架的面试题库也太全了

Java架构之路

Java 程序员 架构 面试 编程语言

阿里“秘密团队”整理出来的一份Java面试复盘手册!全面复盘在望

Java架构之路

Java 程序员 架构 面试 编程语言

总是记不住java的IO流用法?用N个问题教你掌握java IO流

华为云开发者联盟

Java 字符串 IO流 字节输入流 字符流

三年节省4419万元,一场IT降本增效的沙盘演练_腾讯_腾讯云_InfoQ精选文章