写点什么

管理 Kubernetes 集群时需要关注的关键指标

  • 2020-04-15
  • 本文字数:1495 字

    阅读完需:约 5 分钟

管理Kubernetes集群时需要关注的关键指标

有时我们在面对分布式系统工程时常感到痛苦。构建分布式系统真的很难,无论是哪个行业的企业,都希望我们在解决他们的业务问题的同时,还能考虑潜在的大规模业务问题。与大规模部署随之而来的一大挑战,是用户还要考虑创建新特性和避免回档。就算能够非常出色地实现这些目标,用户仍然会担忧很多其他问题,例如信息是否安全、是否遵从法规,以及企业的这一投资是否真的有足够价值。


如果上述描述和你的团队现在的境况很像,而且你们的系统已经在生产环境中运行了,那么恭喜你,你已经通过了第一轮考验。


无论你多么努力建立了一个出色的系统,有时意想不到的事还是会发生。有很多这样的先例。一个杰出的产品,或者是病毒式应用,可能会带来前所未有的成功,而成功之后你就会发现,原先你以为的、你的系统面对大规模应用时的处理方式,好像不适用了。



Pokemon Go 云数据存储的每秒处理数(预期 vs 实际)


来源: Bringing Pokémon GO to life on Google Cloud,发布于 2018 年 5 月 30 日


这一情况是可能发生的,而你也应该为此做好准备。这也是本系列文章所要提到的。在本系列教程中我们将向你介绍需要追踪的内容,为什么追踪它们,以及面对可能的根本原因时需要做的缓解处理。


我们会介绍每一种指标、追踪它的方法以及你可以对应采取的措施。我们将使用不同的工具收集和分析这些数据。教程不会涉及到太多细节的内容,但会提供拓展链接,让大家可以获取更多信息。话不多说,让我们开始吧。

Metrics:用于监控,不止监控

这一系列文章主要关注的是如何监控和运行 Kubernetes 集群。使用日志是一个不错的方法,但在大规模部署的情况下,日志在事后分析工作中可能有很大作用,却难以在过程之中不断警告运维人员那些正在出现的越来越严重的问题。 Metrics Server 可以监控容器的 CPU 和内存使用情况,以及容器所运行在的节点的情况


这让运维人员能够设置并监控 KPI(关键绩效指标)。这些运维定义层面的东西可以为运维团队提供一种确定应用程序或者节点何时不健康的方法。同时也给他们提供了查看问题所需要的所有数据。


此外,Metrics Server


(https://kubernetes.io/docs/tasks/debug-application-cluster/core-metrics-pipeline/)允许 Kubernetes 启用 Horizontal Pod Autoscaling


(https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/)。该功能可以让 Kubernetes 在扩展 pod 实例数量时,是基于 Kubernetes Metrics API 报告的指标以及这些指标反映出来的 API 对象数量来进行扩展的。

在 Rancher Kubernetes 集群中设置 Metrics Server

从 Kubernetes 1.8 版本开始,Metrics Server 以 Kubernetes Monitoring Architecture


(https://github.com/kubernetes/community/blob/master/contributors/design-proposals/instrumentation/monitoring_architecture.md)插件的方式成为了拉取容器指标的标准。在该标准出现之前,默认使用的是 Heapster,现在已经弃用,而开始支持 Metrics Server。


很快,Metrics Server 就将可以在 Rancher 2.0 配置的 Kubernetes 集群上运行了。您可以在 Rancher 的 Github repo 中查看 Rancher 2.0 最新版本的发布动态,一起期待:https://github.com/rancher/rancher/releases


如果想让 Metric Server 工作,你必须通过 Rancher Server API 修改集群的定义。这样可以允许 Rancher 服务器修改 Kubelet 以及 KubeAPI 参数,让它们包含 Metrics Server 正常运行所需要的标记。


有关如何在 Rancher Provisioned 集群上执行这一操作,以及修改其他 hyperkube-based 集群的说明,可以参考 github 的这一链接:https://github.com/JasonvanBrackel/metrics-server-on-rancher-2.0.2


2020-04-15 23:04775

评论

发布
暂无评论
发现更多内容

马自达EZ-6:合资模式2.0的先锋,电动化时代的领航者

Geek_2d6073

上海云管平台怎么样?客服电话多少?

行云管家

云计算 数字化 云管平台 上海

企业选择合适等保服务方案几点建议

行云管家

信息安全 等保 等级保护 等保测评

一文教你如何调用Ascend C算子

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号2024年5月PK榜

AI日报|“蚂蚁技术日”首次对外开放 ,AI创新应用齐亮相;家教费拜拜,小度推“AI老师”学习机

可信AI进展

#人工智能

公链开发:深入探索与未来展望

dappweb

#区块链# 公链开发

LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!

汀丶人工智能

人工智能 大模型 agent

京东按关键字搜索商品API(jd.item_search)返回值技巧分享

技术冰糖葫芦

API Explorer API 文档 API 性能测试

反射API与AOP:打造灵活的软件部署方案

技术冰糖葫芦

API Explorer API 文档 API 性能测试

IPQ9574, IPQ9554, and IPQ5322 Chips Performance Differences -WiFi 7 Solutions Technical Analysis

wifi6-yiyi

WiFi7 ipq9574

KaiwuDB 受邀出席中国智能化油气管道与智慧管网技术交流大会

KaiwuDB

#数据库

使用RAG-GPT和Ollama搭建智能客服

AI Inception

GPT LLM rag Llama3

RAG-GPT实践过程中遇到的挑战

AI Inception

AIGC GPT LLM rag

使用RAG-GPT集成智谱AI、DeepSeek快速搭建OpenAI Cookbook智能客服

AI Inception

AIGC GPT LLM rag

[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP

阿里云大数据AI技术

机器学习 阿里云 Iclr

OpenIM Bot: 用LLM构建企业专属的智能客服

AI Inception

AIGC ChatGPT LLM rag

DR6018S: Achieve 808Mbps Stable Long-Distance PTP Transmission at 1.5km with the IPQ6010 WiFi 6 Chipset

wallyslilly

IPQ6010

软件测试学习笔记丨Selenium 键盘鼠标事件ActionChains

测试人

软件测试

OpenHarmony XTS认证分享

Laval小助手

高性能MySQL实战(一):表结构

京东科技开发者

423世界读书日,探索「读书艺术」与「工作技能」提升

京东科技开发者

为何整个 AI 领域都朝着 AI Agents 这一方向发展?

Baihai IDP

AI LLM 白海科技 企业号 5 月 PK 榜 AI Agents

API安全为什么如此难搞?

芯盾时代

网络安全 物联网 终端安全 网关 API网关

华为云IoT专家实践分享,开源如何改变物联网?

华为云开发者联盟

物联网 华为云 华为云IoT 华为云开发者联盟 企业号2024年5月PK榜

管理Kubernetes集群时需要关注的关键指标_文化 & 方法_Rancher_InfoQ精选文章