写点什么

实战:通过 Pod Priority 保障 Kubernetes 中的关键组件

  • 2020-03-04
  • 本文字数:2339 字

    阅读完需:约 8 分钟

实战:通过 Pod Priority 保障 Kubernetes 中的关键组件

关键组件

集群内部运行的组件,某些组件会相比其他组件来说更为重要,缺少了这些组件,集群的核心功能或者用户业务将无法得到保障:比如 DNS 组件,当 DNS 组件运行异常,集群内部的 DNS 服务将不可用;又比如网络组件,当网络组件异常,某个节点甚至集群的网络将不可用。


Kubernetes 提供了不少机制来保证组件的正常运行,比如:


  • 通过配置 pod 的 restartPolicy,我们可以保证这个 pod 异常退出后,能重新运行起来;

  • 通过配置 deployment 的 replicas,我们可以保证这个 pod 有指定个存活的副本,防止单点故障;

  • 通过配置 pod 的 liveness 和 readiness 检测,我们可以及时发现 pod 的异常状态;

  • 通过配置 pod 资源的 requests 和 limits,我们可以保证这个 pod 有适当的资源来运行。


通常情况下,这些机制保障了组件的正常运行。


下面我们假想一种情况:集群内的一个节点出现异常,控制器检测到这个节点异常后,开始重新调度异常节点上的 pod;假设这个时候,集群的其它节点可用的资源已经不多了,异常节点上有 10 个 pod 等待重新调度,调度完一半后,其它 5 个 pod 因为没有可用资源无法调度,而在这 5 个等待调度的 pod 里,恰好有一个核心应用。这个时候,集群的运行因为核心应用缺失而得不到保障。


如何应对这两种情况呢,我们可以从下面两个角度来解决:


  • 调度优先级:如果调度器能够识别出这是一个核心应用,优先调度这个应用,那么只要在决定调度前,资源还满足这个应用调度的情况下,就可以优先确保关键应用被调度出去;

  • 抢占:当资源不满足核心应用的调度时,通过驱逐出其它低优先级的应用,挪出资源来给核心应用运行。

Critical Add-On Pods

Critical pods 是 Kubernetes 里面标记关键组件的一种方式。除开 api-server, scheduler, controller-manager 这些系统核心组件,诸如 Heapster, DNS 等组件对于集群完整功能起到关键作用。这些关键组件因为某些原因被驱逐,处于等待调度时,配置 Critical pods 标记的组件可以确保被重新调度。


配置 Critical pods


开启 feature-gates


打开 kubelet, controller-manager 的 feature-gates,具体参数如下:



部署 Rescheduler


Rescheduler 可以通过 static pod 的方式运行,默认把 manifest 文件:


https://github.com/kubernetes/kubernetes/blob/release-1.8/cluster/saltbase/salt/rescheduler/rescheduler.manifest


放到 master 节点的 /etc/kubernetes/manifests/ 目录下即可。


Rescheduler 在 Kubernetes 1.10 版本标记为 deprecated,我们可以通过配置 Pod Priority 来达到类似的功能。


配置 Critical pods


默认情况下,Critical pods 运行在 kube-system 分区下,我们需要给这个 pod 如下额外配置:


  • 配置 annotations:

  • 配置 tolerations:



使用 Critical pods


下面我们来通过 Critical pods 来解决上述的问题:


首先,我们配置好 feature-gates,这里我们不使用 Rescheduler。


获取当前的可用资源信息,包括可用容量,当前使用量:



运行一个 pod ,并占用掉大部分的可用资源:



确认当前资源使用情况:



再跑一个 pod,并申请大量资源,pod 会因为资源不足而处于 pending 状态:



将 resource-big 配置成 Critical pods ,观察事件和运行情况:



DIY


在上面的例子中,我们没有使用 Rescheduler,在资源不足的情况下,Critical pod 仍然可以通过抢占的模式,来保证运行。感兴趣的可以自己动手做些改变,思考下 Critical pod 实现的原理:


  • namespace: 把 namespace 从 kube-system 改为其它分区;

  • qos: 创建多个 pod 来占用节点资源,并使用不同 qos 类型来申请资源,观察哪个 pod 会被驱逐;

  • 尝试把 DaemonSet 切换为 Deployment 看是否还能达到预期效果;如果不行,可以尝试部署 Rescheduler。


关于 Preemption 的实现,看兴趣的可以查看这个 PR:


https://github.com/kubernetes/kubernetes/pull/40952

Pod Priority and Preemption

Critical pods 是 Kubernetes 中较早实现的保证关键应用运行的一种手段和尝试,包括与之相关的 Rescheduler。但 Critical pods 及 Rescheduler 在使用时不是非常地灵活,而且只能区分关键应用和非关键应用两种类型,后面(Kubernetes 1.8 开始)引入了 Pod Priority。下面我们来看看 Pod Priority 的使用。


Priority


Priority 表明了 pod 相对于其它 pod 的重要程度,开启 pod priority 特性后,Kubernetes 会保证高优先级的 pod 被成功调度和运行。当 pod 调度不成功时,低优先级的 pod 会被驱逐出去,腾出空间给高优先级的 pod 使用。在 1.9 及以后的版本,Priority 同时会影响调度的顺序以及资源不足时 pod 被驱逐的顺序。


PriorityClass


PriorityClass 是一种 Kubernetes 资源,定义了集群内置的 Priority ,主要属性有 name 和 value,分别代表了这个 PriorityClass 的名字及优先级。通过指定 priorityClassName,可以把 pod 于现存的同名 PriorityClass 关联。value 越高,表示 pod 优先级越高。


配置 Pod Priority


开启 feature-gates


打开 kubelet, scheduler, apiserver 的 feature-gates,具体参数如下:



开启 API 及 admission controller


配置 apiserver 的 runtime-config 及 admission-control 参数:



使用 Pod Priority


我们现在尝试通过 Pod Priority 来解决上述的问题:


首先,我们配置好 feature-gates,runtime-config 及 admission-control。


获取当前的可用资源信息,包括可用容量,当前使用量:



创建两个不同优先级的 PriorityClass:



运行一个 pod ,配置普通优先级,并占用掉大部分的可用资源:



确认当前资源使用情况:



再跑一个 pod,并申请大量资源,pod 会因为资源不足而处于 pending 状态:



将 resource-big 的 priorityClassName 配置成 high-priority ,观察事件和运行情况:



本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/AqfwOiUogN2-bimzBI0ocw


2020-03-04 16:06857

评论

发布
暂无评论
发现更多内容

UI自动化助力业务效率提升

转转技术团队

UI自动化测试

干货|为什么说开源基金会的选择很关键?(下)

Orillusion

开源 WebGL 元宇宙 webgpu web3d

高性能对象池实现

C++后台开发

后端开发 高性能服务器 内存池 对象池 C++开发

看了深入Java虚拟机:JVMG1GC的算法与实现文档,我悟了

程序知音

Java JVM 垃圾回收 java架构 后端技术

数据可视化系列教程|六大组件基础知识

云智慧AIOps社区

大前端 低代码 开源项目 数据可视化 可视化大屏

使用FeatureAbility模块启动其他Ability

白晓明

OpenHarmony应用开发 FeatureAbility

笔记 | DevOps推动科技管理敏捷转型(文末附PPT)

嘉为蓝鲸

DevOps 运维 敏捷 IT 精益

C#/VB.NET 设置Word文档段落缩进

在下毛毛雨

C# .net word文档 段落缩进

中移链DDC-SDK技术对接全流程(一)

BSN研习社

MASA Framework 获取配置信息的方法

MASA技术团队

.net MASA Framewrok MASA

聆心智能入选OPPO“微笑提案”TOP10,让有温度的AI技术守护数亿人心理健康

硬科技星球

浅谈 SAP ABAP 系统里的 ALV 输出方式实现

汪子熙

前端开发 SAP abap 9月月更 ALV

传统单节点网站的Serverless上云

Serverless Devs

盘点适合中小企业的文档管理工具

Baklib

万物皆可集成系列:低代码如何不成为数据孤岛

葡萄城技术团队

低代码 数据孤岛 集成

SpringCloud 注册中心(Nacos)快速入门

nacos SpringCould 9月月更

搭建自己的以图搜图系统 (一):10 行代码搞定以图搜图

Zilliz

Python 机器学习 深度学习 相似度分析 以图搜图

Apache Kyuubi 在小米大数据平台的应用实践

网易数帆

Java hive Apache Spark Thrift kerberos

百余位顶级投资人齐聚无锡,DEMO CHINA创新中国峰会即将揭幕

创业邦

极狐GitLab Helm Chart 已上线,玩转云原生极狐GitLab!

极狐GitLab

DevOps gitlab 云原生 Helm Kubernetes, 云原生, eBPF

AOSWAP去中心化交易所系统开发功能介绍

开发微hkkf5566

2022世界人工智能大会•腾讯“智变未来”论坛:聚焦产业升级,数字赋能未来

科技热闻

重拾面向对象软件设计

阿里巴巴中间件

阿里云 技术 中间件 技术代码

了解数字机器人最新发展动向,不要错过华为数字机器人秋季发布会​

王吉伟频道

RPA 机器人流程自动化 智慧政务 机器人开发 华为数字机器人

优秀的产品手册有助于留住你的客户

Baklib

2022 云原生编程挑战赛启动!看导师如何拆解边缘容器赛题?

阿里巴巴中间件

阿里云 云原生编程挑战赛

当你的老板站在你背后,看你处理故障......

嘉为蓝鲸

运维 IT 故障 上班

设计模式的艺术 第二十一章备忘录设计模式练习(设计一款RPG网游,为了给玩家提供更多方便,在游戏过程中可以设置一个恢复点,用于保存当前的游戏场景。如果在后续游戏过程中玩家角色“不幸牺牲”,可以返回到先前保存的场景,从所设恢复点开始重新游戏)

代廉洁

设计模式的艺术

在数字时代,如何选择企业的知识管理软件

Baklib

建木持续集成平台v2.5.4发布

Jianmu

DevOps 持续集成 gitops 持续部署 Gitea

堡垒机有录像吗?好用吗?有什么作用?

行云管家

网络安全 企业 数据安全 堡垒机 录像

实战:通过 Pod Priority 保障 Kubernetes 中的关键组件_文化 & 方法_才云科技_InfoQ精选文章