【FCon】汇集国内外金融行业顶尖专家,分享最前沿的金融科技应用案例 了解详情
写点什么

三年节省 4419 万元,一场 IT 降本增效的沙盘演练

  • 2024-06-14
    北京
  • 本文字数:4998 字

    阅读完需:约 16 分钟

大小:2.60M时长:15:07
三年节省4419万元,一场IT降本增效的沙盘演练

野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线。


文|游勇

编|周路平


IT 支出作为互联网公司最大的成本,在数智化进入深水区和存量竞争的背景下,如何让 IT 降本增效变得更加迫切。


以前,大量企业的业务高速增长,发展的红利使得很多 IT 建设粗放式发展,很少人在意资源利用率的提升。但现在,野蛮生长的阶段已经结束,开始进入存量竞争时代,IT 的降本增效将是未来很长一段时间的主线


01 一场 IT 降本增效的沙盘演练


从物理机到虚拟机,再到现在的容器化,IT 基础架构这些年一直在朝着敏捷、弹性、稳定的方向演进。而这些新的 IT 技术和架构到底带来了怎样的效果,一直是行业密切关注的话题。


不久前,全球知名独立咨询机构 Forrester 访谈了多位腾讯云容器服务 TKE 的客户,并且基于访谈信息,采用 Forrester 研发的 TEI(Total Economic Impact)方法论,发布了国内首份容器服务总体经济影响报告。TKE 是基于原生的 K8s 容器编排引擎,结合腾讯云的计算、存储、网络等基础设施打造的一个企业级的 PaaS 服务。


为了验证这套模型的效果,Forrester 模拟了一家年营收 4.5 亿元左右的企业。这家企业的特点是业务范围覆盖全国,技术团队规模在百人以上,计划在三年时间完成 90%以上服务和应用的容器化改造。


这场沙盘演练围绕着企业基础 IT 建设普遍关注的几个核心指标——基础设施成本、运维成本、应用开发的效率以及系统稳定性,在容器化之后,这些方面都得到了大幅提升



首先是计算资源的成本节省超过 70%。由于 TKE 容器的弹性调度能力,使得企业不用再购买备用机器,可以根据业务按需调用,而且容器化程度越深,TKE 用量越大,机器节省的成本也逐年增加,三年累计收益达到 1771 万元


其次是日常运维负担降低了 50%以上,峰值运维负担降低 98%。TKE 使运维人效成倍数增长,将耗时多日的扩缩容工作转化为分钟级的自动化、平台化操作。这部分的收益在三年时间为 914 万元


一位协同办公行业的业务副总经理直言,“我们的扩容效率提升非常明显,能做到一小时扩容 10 万核,即从提出申请到扩容全部完成只需要一个小时,如果除去其中申请和协调资源的时间,利用 TKE 扩容只需要十分钟。”


再者是应用开发效率的提升。容器的标准化和易迁移特性,让研发不用操心服务器的操作系统差异,能实现新应用、新功能的快速部署上线,迭代效率提升 90%以上。对于一家拥有 90 名研发人员的组织而言,这部分在三年时间产生的收益达到 3092 万元


最后是稳定性的收益,通过自动化预测、告警与修复故障,每年服务中断时间减少 42.6 小时,由此得以增加的运营利润达到 183 万元


也就是说,这家年营收 4.5 亿元的复合式组织,三年内的总收益达到了 5960 万元。而该组织需要为此付出的成本——包括订阅费、部署实施费、学习成本是 1541 万元。两者相减,得到的净收益达到了 4419 万元,投资回报率高达 287%


而 Forrester 经过一系列严谨的测算之后,通过抽象提炼,最终形成了一套有普适性的模型。腾讯云也基于这套模型推出了容器服务的 ROI 计算器,客户只要输入各自的业务真实情况,能非常直观地看到三年后带来的收益。


这个沙盘演练的效果,在降本增效成为企业主旋律的当下,提供了一个非常有价值的参考。


更关键的是,这套模型并不是简单粗暴的叠加计算,而是充分参考了各行各业的真实客户在使用 TKE 容器化服务前后的特点和效果。


一是充分考虑了容器化改造的不同阶段。容器化比例没有简单粗暴地设计在一年内完成,而是逐年提高,这也符合目前企业对容器化改造的一个特点,循序渐进,逐步看到效果。


二是对收益和成本进行了细致的拆分。比如复合式组织设定了每年有三次大型流量峰值,每次峰值需要投入 32 个小时进行提前扩容准备;同时对运维人员和研发人员的时薪做了不同设计,甚至把薪资涨幅也都设计在内。而且也考虑了企业进行容器化改造产生的实施成本和技术人员对 K8s 容器技术的学习成本。


三是未将不可量化的收益纳入其中。企业在进行云原生容器化改造后,其实不仅有可量化的收益,也有很多不可量化的收益,包括客户满意度的提高,技术团队更流畅的协作和工作状态的提升等。但这套模型并没有将不可量化的收益统计在内,而这些效果确实在诸多企业的实际业务中真实存在。


甚至考虑到企业在现实业务中的复杂性和各种风险因素,Forrester 还给每项收益下调了 10%,成本则调高了 10%。但即便在如此严苛的条件之下,容器化和非容器化的收益对比依然非常明显。


02 云原生已经成为共识


Forrester 的这份研究报告背后,让外界进一步看到,以 K8s 容器为代表的云原生技术能够有效疏解企业在 IT 降本增效、弹性伸缩方面的心头之痛。


此前,有机构统计过一个很残酷的数字:国内数据中心 CPU 利用率仅为 10%左右。IT 资源利用率不高的背后,与传统 IT 架构的特性有很大关系。不管是物理机还是虚拟机,其应用、操作系统和基础设施之间很多是紧耦合的关系,不够弹性。


在单体机架构下,每台服务器只运行一个应用程序。后来的虚拟机虽然允许一台服务器运行多个应用程序,在一定程度上解决了服务器资源浪费的问题,但每台虚拟机都有自己的操作系统,会消耗大量与计算不相关的资源,不仅造成了浪费,而且启动速度也很慢。


腾讯当年在业务全面上云之前,也遇到类似的难题。每个业务部门为了应对突发的流量,在升级服务器资源时会留出资源缓冲区,这是 IT 部门的常规操作。但当所有的缓冲区叠加在一起,就形成了大量的闲置资源浪费。


而对于业务还在不断增长或者业务波峰波谷比较明显的企业而言,这样的痛感来得更加真实。


现在,云原生的架构能实现系统的敏捷部署、弹性扩展、动态迁移、故障自愈等。而容器作为云原生的代表性技术之一,实现了应用与运行环境的解耦。相比于物理机、虚拟机,一个容器就是一个应用程序,它将所有文件配置以及运行所需要的必要文件打包到一起,这意味着它只打包了计算环境所需要的内容。而基于开源容器编排引擎 K8s,能够实现了容器的自动部署,扩展和管理。



其优势已经非常明显,比如解决异构环境一致性问题、更高的机器资源利用率等,几个简单的命令就可以在单机上管理容器。比如,它可以自动调度和自动修复,可以运行在 k8s 集群中的任一节点,而且某一个服务器挂了,可以自动调度到另外一台主机上运行,无需人工干涉。


另外,成本上也有优势,容器按量计费,Pod 销毁了就不收费,计费粒度是秒级的,但虚拟机不一样,它的生命周期更重一些,弹性能力也比容器差,计费粒度也更粗。


一位信息通信行业的云服务运维负责人透露,他们在使用了腾讯云容器服务 TKE 之后,业务高峰期的扩容只需要不到五分钟时间,以前两三个人加班加点才能完成的工作,现在只需要一个人就能操作。


如今,以容器、微服务等为代表的云原生技术已经成为企业技术选型的共识。一位管理软件的高管告诉数智前线,客户现在都默认你用的就是云原生方案,已经不需要再去特别强调的事。


在 Forrester 2022 年全球云基础设施调研中,72%的中国云决策者表示,使用以云原生为代表的新计算架构进行现代化改造将是其组织未来 12 个月的技术架构和交付优先事项之一,而世界其他地区的这一比例为 53%。


应用容器化率也在逐年攀升。2020 年容器超过虚拟机成为企业部署计算的最小单元。据 Gartner 预测,到 2025 年,85%的组织将在生产环境中使用容器


腾讯作为国内最早上线容器服务 TKE 的企业之一,这次与 Forrester 联合发布业内首份容器经济影响报告,并推出 ROI 计算器,将让各行业进一步看到直观、系统地看到云原生带来的价值,从而加速容器化率的提升


其实早在 2016 年,腾讯就开始启动基于 K8s 的 TKE 项目。到目前为止,腾讯云 TKE 已经为上万企业客户提供容器化平台,单集群支持上万个节点。除了腾讯自己,包括快手、小红书也接入了腾讯云的容器服务,都取得了实打实的效果。


今年 4 月,腾讯云入选 Gartner 容器客户之声亚太区“卓越表现者”象限。在 8 家获评的容器管理厂商中,腾讯云成为唯一入选的中国企业


03 TKE 如何帮助企业降本增效


其实,在 Forrester 产出这份报告之前,腾讯云 TKE 已经在腾讯内部和外部客户的业务中得到了检验


2022 年,腾讯宣布完成了自研业务全面上云,成了国内最大的云原生实践。


但在自研业务上云初期,腾讯也经历过很多企业都面临的困境,比如习惯“堆机器”,把物理机原封不动搬到云上,或者直接把容器当虚拟机用,整个架构和代码不需要任何的改造,但违背了云原生的初衷,云的价值完全没有发挥出来。尤其是当实例变得又大又复杂时,没法快速启停,影响了弹性扩缩容的效率。


但很快,腾讯基于腾讯云 TKE,开启了真正的云原生之旅。


腾讯一开始先将离线业务容器化,比如基于滚动的发布,对自研业务的灰度测试非常关键,比如动态路由能力,实现路由的自动化。然后是在线业务容器化,实现自定义工作负载,保证 Pod 容器的中断时间控制在一秒以内,实现原地无感知的升级扩容。


过去几年的努力,腾讯内部 95%的业务都放在可调度的公共集群里。而腾讯云 TKE 的落地规模已经超过 5000 万核,累计为腾讯节省了数十亿元成本。而且,即便面对腾讯如此庞大且复杂的业务体量,TKE 平台从始至终没有遇到过大的故障。


对于还在观望的企业而言,腾讯自己提供了一个很好的云原生转型范本。


作为国内最大的房产中介平台,贝壳一直对新的 IT 技术保持着非常高的热情。相比于那些不敢用、不会用的企业,贝壳在做云原生技术架构的改造前,内部就已经进行了容器化改造,并且与腾讯云 TKE 有一些小规模合作。但起初用的是 TKE 普通节点,本质上是在虚拟机上部署一些托管的 K8s 能力,效果并不明显。



2023 年初,贝壳打响了云原生攻坚战,提出了“4321”的技术口号,其中 4 指的是计算集群利用率提升到 40%。


“容器化和云原生,是提升利用率,尤其是提升在线业务利用率的一个技术达成路径。”贝壳云技术中心系统研发部高级经理杨菁伟说。


很快,贝壳接入了腾讯云 TKE 的原生节点,其核心还是怎么弹性扩缩容,自动化部署以及提高已有资源的利用率。TKE 原生节点帮助贝壳解决了三个核心问题:


首先是 Request 配置。在创建 K8s 集群的工作负载时,通常需要配置合适的资源,Request 是下限,指的是容器需要保留的最小资源量;limits 是上限,一个容器使用的最大资源量。以前都是客户根据经验自己配置,很容易估不准,大家习惯将申请量设置得较大,造成资源闲置,这是一个非常普遍的现象。


腾讯云 TKE 原生节点的“成本大师”推出了 Request 智能推荐工具,可以通过分析客户业务实际利用率和历史数据,给客户推荐最合适的 Request 配置,确保资源得到合理利用。


其次,在节点放大之后,容易遇到稳定性问题,考验 TKE 资源如何调度。比如 K8S 集群有时会出现调度不均,某些节点负载过高,而其他节点负载又很低。人工调度往往不及时,也很麻烦。腾讯云 TKE 原生节点,支持根据客户节点的实际负载进行智能调度。包括支持“节点动态放大”,根据实际需求,自动增加 CPU 和内存资源。


三是在线和离线业务能否混合部署。在线业务对资源的要求高,但变化会比较明显,离线业务便静态,及时性不高。要想集群 24 小时运转,就需要把在线和离线业务混在一起运行。


同时,腾讯云 TKE 在内核层面实现资源隔离,允许高低优任务共存,高优任务可抢占低优资源,确保在线业务不受影响。


最终,在 TKE 原生节点的支持下,贝壳的资源利用率从去年年初的峰值不到 25%,到年底提升到了 40%


“容器不是终点,它其实是一切的起点。”杨菁伟说,容器化为贝壳真正迈向云原生打下了基础,未来将推进两件事:一是让自建的容器逐渐迁移到公有云的底座上,增加腾讯云 TKE 在贝壳的算力供给比重;二是针对应用以外的组件进行云原生的适配,实现数据的云原生和缓存的云原生等。


在线教育平台作业帮也是一家非常典型的客户。作为一家月活用户约 1.7 亿的在线教育公司,学生学习的时间集中在周末和放学之后,波峰波谷非常鲜明,高峰时段的流量是平时峰段的 20 倍,是低峰时段(凌晨到 5 点左右)的上百倍。


所以,作业帮对资源弹性调度的诉求非常高。作业帮从 2020 年开始将部分业务逐渐接入腾讯云容器服务 TKE,涉及数千业务应用,数十万计算核数。通过 HPA 机制、离在线混部、共享 GPU 等腾讯云 TKE 提供的一套整体解决方案,作业帮的节点平均 CPU 利用率从 10%提升到 30%,成本下降 40%,接口响应提升 10%。


当然,除了被广泛使用的 TKE 原生节点,腾讯云也针对企业 Serverless 和大模型的需求,衍生出了 TKE 超级节点和 SCF on K8s 等新的产品形态


IT 的降本增效从来不是一朝一夕能做完的事,需要企业根据自身业务特点持续地推进和优化,当然也需要技术服务商及时地捕捉和响应市场的需求。



文章来源:公众号【数智前线(szqx1991)】

2024-06-14 13:336253

评论

发布
暂无评论
发现更多内容

情感语音识别的挑战与未来趋势

来自四九城儿

低成本大模型解决方案

百度开发者中心

gpu #人工智能 LLM

结合RNN与Transformer的强大模型

百度开发者中心

大模型 #人工智能

Kubernetes集群原地无损大版本升级的一些探索

chen

Kubernetes 升级 Kubernetes 集群 kubernetes 运维

Pixea 5 for Mac(看图软件)

展初云

Mac 看图软件 Pixea Plus for Mac

GraphicConverter 12 for mac v12.0.8中文激活版

iMac小白

一键部署,高效私有化大模型

百度开发者中心

大模型 #人工智能 LLM

SpringMvc集成开源流量监控、限流、熔断降级、负载保护组件Sentinel | 京东云技术团队

京东科技开发者

Java sentinel springmvc

AI 的“道德感”如何训练而来(2)

石君

AIGC 人工智能道德

Flutter App混淆加固、保护与优化原理

After Effects 2023 for Mac(AE视频特效制作软件) v23.6完美激活版

mac

AE2023 苹果mac Windows软件 视频特效软件 After Effects 2023

Sketch 57 for mac(矢量绘图软件) v57.1中文激活版

mac

Sketch 苹果mac Windows软件 矢量绘图软件

WebSocket 是什么原理?为什么可以实现持久连接?

EquatorCoco

Web 网络协议 websocket 通信协议

报名!星河社区五周年「极客工坊」8城巡回启动,共话大模型!

飞桨PaddlePaddle

人工智能 开发者 星河社区

INFINI Easysearch 与华为鲲鹏完成产品兼容互认证

极限实验室

华为鲲鹏 easysearch 极限科技 华为鲲鹏认证

Parallels Desktop 19 for Mac(PD19虚拟机)一键激活版

iMac小白

有”亿“点强,抖音的服务器带宽是如何应对亿人同时刷屏的?

Finovy Cloud

云计算 CDN 短视频 抖音 短视频制作

AE 3D粒子系统插件推荐 Trapcode Particular激活最新版

胖墩儿不胖y

Mac插件 粒子插件 粒子插件ae

全能pdf编辑工具 PDF Expert 中文激活最新版

mac大玩家j

PDF Mac软件 pdf编辑器 pdf工具

Mp3tag for Mac(音频标签编辑器)

展初云

Mac软件 Mp3tag 音乐标签

借助ETL快速查询金蝶云星空表单信息

RestCloud

ETL 金蝶云

Linux RN6752 驱动编写

EquatorCoco

Linux 运维

VMware InstallBuilder Enterprise for Mac(跨平台安装程序的开发工具)v23.11激活版

iMac小白

VMware Fusion Pro 13 for Mac(VM虚拟机)v13.5.0激活版

iMac小白

聊一聊大模型 | 京东云技术团队

京东科技开发者

人工智能 大模型 ChatGPT

如何使用Selenuim浏览器自动化框架实现自动登录社交媒体账号和自动发布文章

爱写字的阿城

自动化 selenium

ThreadPoolExecutor线程池内部处理浅析 | 京东物流技术团队

京东科技开发者

Java 线程池 ThreadPoolExecutor

LLM大模型AI能力助力企业数字化智能化转型

百度开发者中心

#人工智能 LLM

Sparkle 5 for Mac(网页开发工具)

展初云

网页设计 Mac软件 Sparkle

Retrobatch 2 for mac(图像批量设计工具)

展初云

集成测试的实践与思考

老张

软件测试 集成测试 质量保障

三年节省4419万元,一场IT降本增效的沙盘演练_腾讯_腾讯云_InfoQ精选文章