AI 时代下组织如何快速变革?如何提升全员 AI 技能?戳> 了解详情
写点什么

阿迪达斯平台团队是如何减少运行 Kubernetes 集群的成本的

作者:Claudio Masolo

  • 2024-09-03
    北京
  • 本文字数:2003 字

    阅读完需:约 7 分钟

阿迪达斯平台团队是如何减少运行Kubernetes集群的成本的

在最近的一篇 Medium 博客文章中,平台工程师 Iya Lang 介绍了阿迪达斯如何将在 AWS 上运行的 Kubernetes 集群的成本最多降低 50% 的。


阿迪达斯团队采取的多管齐下方式对许多组织的平台工程团队都会很有助益,因为 CNCF 最近的一份报告指出,49% 的受访者由于引入 Kubernetes 带来了云成本的增加。


该团队引入的第一项措施主要关注降低 EC2 实例的成本。为了实现这一点,他们实施了 Karpenter,这是一个由 AWS 开发的集群自动扩缩器(autoscaler),它会根据应用程序的需求调整节点的数量。Karpenter 的特性包括:


  • 根据实时的 Pod 调度需求,动态供应计算资源(EC2 实例)。这确保了集群能够在正确的时间拥有正确的节点数量,以处理应用程序的负载;

  • 通过以下方式优化集群的资源使用率:

  • 仅启动必须的实例类型以满足 Pod 的需求;

  • 寻找机会以移除利用率不足的节点;

  • 在可能的情况下,利用更具成本效益的方案替代昂贵的实例。识别出成本最低且中断风险最小的应用,让它们使用 spot 实例(以较低成本提供的未使用的 AWS 计算能力);

  • 将工作负载整合到更高效的计算资源上。

  • 与现有的 Kubernetes 工作流进行无缝集成。你可以对其行为的各个方面进行配置,包括:

  • 用于供应的 EC2 实例的类型;

  • 节点所配置的启动模版规范;

  • 扩展策略,根据特定的需求调整资源分配。


Karpenter 目前仅支持 AWS,但是该项目有计划将其他云供应商也纳入进来。


阿迪达斯团队采取的第二项措施是自动创建垂直 Pod 自动扩缩器(Vertical Pod Autoscaler,VPA),以提高资源的利用率。具体来说,平台团队为开发和 staging 集群中的所有工作负载自动创建了垂直 Pod 自动扩缩器。阿迪达斯选择了通常用于应用程序安全的策略工具 Kyverno 来生成默认的 VPA。


Kyverno 是一个策略引擎,在 Kubernetes 集群中作为动态准入控制器来运行。它负责校验和变更来自 Kubernetes API 服务器的准入 webhook HTT 回调,应用相关的策略来执行或拒绝准入请求。Kyverno 策略可根据各种条件(包括资源种类、名称、标签选择器等)来选定资源。变更策略可以通过 overlays(类似于 Kustomize)或 JSON Patch 来声明。校验策略使用 overlay 语法,支持模式匹配和条件(if-then-else)逻辑。策略执行的结果会记录为 Kubernetes 事件。对于已允许的请求或执行 Kyverno 策略之前的请求,Kyverno 会生成策略报告。这些报告提供了与策略相匹配的资源运行列表、资源的状态和其他详细信息。



Kyverno 架构


阿迪达斯团队将 Kyverno 策略按照如下方式进行配置:


  1. 检查资源是否具有水平自动扩缩器(Horizontal Pod Autoscaler,HPA)或 VPA;

  2. 校验是否允许为资源及其命名空间创建 VPA。


团队引入的第三项措施是设置 VPA 的默认值。在事先不了解应用程序的情况下设置 VPA 是一项很具挑战性的事情。阿迪达斯团队决定只控制资源请求,以防止在使用高峰期出现应用程序的中断。他们将允许的最小值设置为非常低的水平(例如,CPU 为 10 millicore,内存为 32M),并根据原始请求或限制来设置最大值,以确保稳定性。对于有多个容器的应用程序,团队避免使用maxAllowed以防止出现潜在的问题。


在实施默认 VPA 后,开发和 staging 集群的 CPU 和内存使用率降低了 30%。不过,这里也存在一些限制:


  • VPA 无法与使用资源度量指标的 HPA 协同工作;

  • 由于堆大小固定,比较老的 Java 应用程序可能无法从中获益;

  • 某些应用程序需要不间断运行,因此必须为它们提供不参与其中的方案。



阿迪达斯团队还希望通过在非办公时间缩减资源以减少二氧化碳的排放量并节省开支。他们使用了kube-downscaler。该工具可根据预定义的时间表调整副本数量,并允许针对特定应用进行定制。


在实施了这些措施后,团队面临着节点利用率不足的问题。为了解决这个问题,他们实现了一些 Kyverno 策略,以防止有问题的 Pod Disruption Budget(PDB)配置阻碍节点的移除。他们还制定了一项清理策略,定期清除无效的 PDB。


阿迪达斯团队针对非生产集群实施了上述成本优化措施,并在所有环境中采用了 PDB 策略。这一措施使开发和 staging 集群的每月成本降低了 50%。他们对生产集群采用了选择性(opt-in)模式,允许应用团队选择自己的工具和配置。


阿迪达斯团队分享了成功优化成本的一些关键考量因素:


  • 确保有足够的节点容量来处理 Pod 的增加;

  • 设置适当的 VPA 配置,以平衡成本的节约和应用的性能;

  • 通知用户关于变更的信息,防止与事故相关的中断;

  • 保持全面监控,以衡量相关的影响。


该团队认为,成本优化是一个需要不断调整的持续过程。


在 Reddit 上可以找到更多企业尝试降低云成本的例子,例如“将 Kubernetes Dev Envs 的云成本降低 95% 以上”以及“如何降低 AWS 的成本?”。


应用的优化也可以降低云成本,提高可持续性。Erik Peterson 在 QCon SF 上介绍了相关的指导方案,并为 InfoQ 撰写了一篇相关的文章,即“一行代码价值百万美元:从工程技术角度看云成本优化”。


原文链接:

https://www.infoq.com/news/2024/07/adidas-kubernetes-cost-reduction

2024-09-03 10:375433

评论

发布
暂无评论
发现更多内容

信创云管理平台,头部券商解决异构云资源管理的关键

BoCloud博云

信创 云管平台

ModStartCMS模块化建站系统 v3.5.0 多图字段支持,系统优化升级

ModStart开源

API接口知识小结

源字节1号

程序员 有趣的技术知识

企业知识管理的措施

小炮

知识管理

Redis面试题:基本数据类型与底层存储结构

Linux服务器开发

redis 面试题 Linux服务器开发 Linux后台开发 BAT面试题

打印总是遇到问题?一文教你如何在优麒麟上使用 CUPS 管理打印机

优麒麟

Linux 终端 优麒麟 打印机管理

深度揭秘阿里云 Serverless Kubernetes

Serverless Devs

成都大运会“数智竞技邀请赛”启动 开悟平台为全球青年提供竞技舞台

科技热闻

聊聊数仓中TPCD-DS&TPC-H与查询性能的那些事儿

华为云开发者联盟

编辑器 GaussDB(DWS) TPCD-DS TPC-H 查询性能

中国企业的测试之道被美国学习了?

博文视点Broadview

隐私安全的必答题,网易云信如何解?

网易云信

隐私安全

阿里巴巴开源大规模稀疏模型训练/预测引擎DeepRec

阿里云大数据AI技术

机器学习 深度学习 搜索引擎 分布式训练 推荐引擎

字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化背景

字节跳动数据平台

大数据 flink 字节跳动 数据集成

安全大讲堂 | 孙朝晖:全量数据是一切网络安全分析的起点

腾讯安全云鼎实验室

数据分析 网络安全 数据安全 安全大讲堂

如何使用Java AWT 创建一个简易计算器

华为云开发者联盟

Java 计算器 GUI AWT 图形

即学即会 Serverless 系列:初识 Serverless 架构

Serverless Devs

云计算 阿里云 Serverless 架构

《Mybatis 手撸专栏》第1章:开篇介绍,我要带你撸 Mybatis 啦!

小傅哥

小傅哥 mybatis 手写Mybatis

31岁的Python,蝉联年度编程语言排行榜冠军

JackTian

Python 编程 程序员 编程语言 后端

从持续交付到业务创新(上):互联网时代研发效能的核心

阿里云云效

云计算 阿里云 云原生 研发效能 持续交付

小程序容器轻松打造轻应用生态平台

Speedoooo

APP开发 小程序容器 轻应用 快应用 超级app

从持续交付到业务创新(下):有效的业务创新

阿里云云效

云计算 阿里云 云原生 研发效能

ironSource 推出全球首个跨渠道应用营销平台 ironSource Luna

科技热闻

OceanBase 源码解读(八):事务日志的提交和回放

OceanBase 数据库

oceanbase 源码解读

TSP 平台场景中的 MQTT 主题设计|车联网平台搭建从入门到精通 03

EMQ映云科技

开源 物联网 IoT mqtt emq

ShardingSphere-Proxy 5.0 分库分表(一)

神农写代码

教你两分钟做出一个精美好用的404页面

源字节1号

前端开发 后端开发 网页开发

金三银四的 Vue 面试准备

CRMEB

如何实现24小时客户服务

小炮

客户服务

资金管理系统解决方案

低代码小观

资产管理 企业管理系统 资金安全 CRM系统 客户关系管理系统

小程序多端引流新思路:App公域流量挖掘

Speedoooo

APP开发 智慧终端 引流获客工具 引流获客系统

VuePress 博客之 SEO 优化(五)添加 JSON-LD 数据

冴羽

Vue 前端 vuepress SEO 博客搭建

阿迪达斯平台团队是如何减少运行Kubernetes集群的成本的_云计算_InfoQ精选文章