写点什么

CPU 隔离:Nohz_full

  • 2022-04-06
  • 本文字数:1845 字

    阅读完需:约 6 分钟

CPU 隔离:Nohz_full

SUSE Labs 团队探索了 Kernel CPU 隔离及其核心组件之一:Full Dynticks(或 Nohz Full),并撰写了本系列文章:

 

1. CPU 隔离 – 简介

2. CPU 隔离 – Full Dynticks 深探

3. CPU 隔离 – Nohz_full

4. CPU 隔离 – 管理和权衡

5. CPU 隔离 – 实践

 

本文是第三篇。

NOHZ_FULL


“nohz_full=” 内核引导参数是当前用于配置 full dynticks 和 CPU 隔离的主接口。

 

CPU 列表参数传给 nohz_full 的作用是定义一组要隔离的 CPU。例如,假设您有 8 个 CPU,希望隔离 CPU 4、5、6、7:


nohz_full=4-7


关于 cpu-list 参数格式请参考:https://www.kernel.org/doc/html/latest/admin-guide/kernel-parameters.html#cpu-lists


nohz_full 的作用


当一个 CPU 包含在 nohz_full 引导参数的 CPU 列表中,内核会试图从那个 CPU 中排除尽可能多的内核干扰。本系列的第二篇文章已经从理论上解释了关闭计时器 Tick 的准备工作,这就是最终需要执行的操作:


定时器中断 


满足以下条件时,定时器可以停止:



残余的 1 Hz Tick(每秒钟中断)仍然存在,目的是为了维护调度程序内部统计。它以前在隔离的 CPU 上执行,但现在,这个事件使用一个未绑定的工作队列被卸载到 nohz_full 范围之外的 CPU。这意味着一个干净的设置可以在 CPU 上 100%无 Tick 运行。


定时器回调


未绑定定时器回调执行被移动到 nohz_full 范围之外的任何 CPU,因此,它们不会在错误的地方触发定时器 Tick。与此同时,被固定的定时器 Tick 不能转移到其他地方。我们稍后会探讨如何处理。


工作队列和其他内核线程


与定时器回调类似,未绑定的内核工作队列和 kthread 被移动到 nohz_full 范围之外的任何 CPU。但是,被固定的工作队列和 kthread 不能移动到其他地方。我们稍后会探讨如何处理。


RCU


大部分 RCU 处理任务都被卸载到隔离范围外的 CPU 上。CPU 设置为 nohz_full 在 NOCB 模式下运行(https://lwn.net/Articles/522262/),这意味着在这些 CPU 上排队的 RCU 回调是在非隔离的 CPU 上运行的未绑定 kthreads 中执行。不需要传递“rcu_nocbs=” 内核参数,因为这在传递“nohz_full=” 参数时自动处理。

 

CPU 也不需要通过 Tick 来积极报告静止状态,因为它在返回到用户空间时进入RCU扩展静止状态


Cputime 记账


将 CPU 切换到 full dynticks cputime 记账,这样它就不再依赖周期性事件。

其他隔离设置


尽管 nohz_full 是整个隔离设置的重要组成部分,但也需要考虑其他细节,其中重要的两项包括:

 

用户任务仿射


如果您想运行一个不被干扰的任务,一定不希望其他线程或进程与其共享 CPU。full dynticks 最终只在单个任务中运行,因此,需要:


  • 将每个隔离任务仿射到 nohz_full 范围内的一个 CPU。每个 CPU 必须只有一个隔离任务。

  • 将其他所有任务仿射到 nohz_full 范围之外。

 

有多种方式可以将您的任务仿射到一组 CPU 上,从底层系统调用 sched_setaffinity() (https://man7.org/linux/man-pages/man2/sched_setaffinity.2.html) ,到 taskset 等命令行工具(https://man7.org/linux/man-pages/man1/taskset.1.html)。另外也建议使用强大的 cgroup 接口,例如 cpusets (https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v1/cpusets.html)


IRQ 仿射


硬件 IRQ(除计时器和其他特定的中断之外)可能会在任何 CPU 上运行,并打乱您的隔离集。产生的干扰可能不仅仅是占用 CPU 时间和破坏 CPU 缓存的中断,IRQ 可能会在 CPU 上启动进一步的异步工作:softirq、计时器、工作队列等。因此,将 IRQ 仿射到 nohz_full 范围之外的 CPU 通常是一个好想法。这种仿射可以通过文件而取消:

/proc/irq/$IRQ/smp_affinity

 

$IRQ 是向量号,更多细节可见内核文档:https://www.kernel.org/doc/Documentation/IRQ-affinity.txt

 

所有这些 CPU 隔离设置都涉及到一些陷阱和权衡,我们将在第四篇文章中探讨。

2022-04-06 11:072604

评论

发布
暂无评论
发现更多内容

大数据如何助力营销(4)策略制定

MobTech袤博科技

IOS证书制作教程

雪奈椰子

学术加油站|基于LSM-tree存储系统的内存管理,最大限度降低I/O成本

OceanBase 数据库

数据库 oceanbase

获权威机构Gartner认可,瓴羊Quick BI连续四年入选魔力象限ABI报告

夜雨微澜

网络安全里的主要岗位有哪些?小白如何快速入门?

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

全是技巧!ZBrush雕刻手部教程赶紧收藏!

Finovy Cloud

登录appuploader

雪奈椰子

豆浆、油条、肉夹馍......西安银行的挑战开始了

OceanBase 数据库

数据库 oceanbase

Django笔记三十二之session登录验证操作

Hunter熊

Python django session session管理 登录操作

私有化部署的即时通讯软件:消息、文件安全加密,全面可控

WorkPlus

机器学习平台 PAI 支持抢占型实例,模型服务最高降本 90%

云布道师

GGV 对话 Zilliz 星爵:向量数据库,开创 AI 原生数据基础软件时代

Zilliz

Milvus Zilliz AIGC 向量数据库 zillizcloud

瓴羊Quick BI、帆软finebi等助力中国企业加速BI国产化替代进程

对不起该用户已成仙‖

数字化转型应该如何去做?(历史篇)

数字随行

数字化转型

与众不同的夜间开关交互效果

南城FE

CSS 前端 动画 交互设计 开关

使用数据可视化分析还有多少人在玩梦幻西游

搞大屏的小北

数据可视化 用户画像 梦幻西游 游戏分析

iOS描述文件(.mobileprovision)一键申请

雪奈椰子

活动回顾|Kyligence x 亚马逊云科技,携手加速零售电商数智化转型

Kyligence

数据分析 零售行业 指标平台

得物社区亿级ES数据搜索性能调优实践

得物技术

太爆了!阿里最新出品2023版JDK源码学习指南,Github三天已万赞

程序员小毕

程序员 后端 jdk源码 架构师 java面试

聊聊原生拖拽API

巨梦科技

django Vue

数据可视化图表之雷达图介绍

2D3D前端可视化开发

数据分析 数据可视化 数据可视化工具 可视化图表 雷达图

我为什么觉得数字中台是团队的新型基础设施

软件工程师-罗小东

基于ebpf的parca-agent profiling方案探究

jupiter

ebpf profiling parca

开心档之C++ 变量类型

雪奈椰子

WorkPlus Knowledge:基于ChatGPT创建专属你的智能化知识库

WorkPlus

520用项目管理思维来过,相当炸裂!

禅道项目管理

使用MFT进行加密文件传输的7个好处

镭速

RocketMQ 5.0 如何配置TLS加密传输?

Apache RocketMQ

消息列队

手语识别技术的应用和前景

来自四九城儿

IDO 前瞻,Vimverse 生态如何推动 DeFi 的深度革新?

股市老人

CPU 隔离:Nohz_full_硬件_Frederic Weisbecker_InfoQ精选文章