报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Puppet 监控速查手册:问题 / 原因→解决方案

  • 2019-09-15
  • 本文字数:1917 字

    阅读完需:约 6 分钟

Puppet 监控速查手册:问题 / 原因→解决方案

Puppet 是基于 C/S 架构的集中配置管理系统,基于自有描述性语言,可以实现对配置文件、用户、定时任务、软件包、系统服务等管理,保证大规模集群基础配置一致性。


我们用 Puppet 管理了上千台服务器,经过多次优化监控,自动化灰度发布保证了所有集群基础配置一致性。本文探讨了如何对 Puppet 系统进行监控,也将典型问题和解决方案一并分享给大家。

监控选型

Foreman 提供了较全面的交互设施,包括 Web 前端、CLI 和 RESTful API。在此基础之上,可以构建监控管理系统,以及实现报警等功能。

核心业务流程

可以简单将 Puppet 的工作流程抽象为四部分:


  • 请求阶段:Agent 基于 SSL 将自身信息发送给 Server;

  • 响应阶段:Server 基于客户端信息解析相应的配置,并最终将伪代码(catalog)发送回 Agent;

  • 执行阶段:Agent 接收 catalog 并执行命令或者更新文件;

  • 汇报阶段:Agent 把结果汇报给 Server。



图 1 Puppet 工作流程

监控概览

对 Puppet 的核心监控主要覆盖如下环节:


  • Agent 与 Master 通信是否正常;

  • Agent 策略执行是否生效;

  • Puppet 发布的策略生效时间及范围;

  • Master 及其所管理集群的运行状态。

黑盒监控

Puppet 黑盒监控指标不符合预期,说明集群不能正常工作或出现异常,黑盒监控指标有:所有策略是否都生效,策略生效范围是否符合预期,策略生效结果是否符合预期。


所有策略是否都生效


说明:将一批测试节点,加入到线上 Puppet 集群,通过定期运行检查脚本验证所有策略是否都生效。


策略生效范围


说明:策略上线后,需要确认其生效范围是否符合预期,即策略是否仅在指定的节点生效。


实现:通过 Puppet 模块 MCollective 定时执行检查任务(检查实际生效的机器列表和服务树机器列表是否一致),如下图,集群 hn-xdata 有 98%的机器符合预期,2%不符合。



图 2 Puppet 策略生效范围监控


策略生效结果是否符合预期


说明:策略上线后,需要确保所有策略在所有机器都生效。


实现:通过 Puppet 模块 MCollective 定时执行检查任务,(检查实际生效的机器列表和服务树机器列表是否一致),如下图,每一个策略有一张饼图。



图 3 Puppet 策略结果监控

白盒监控

白盒监控是黑盒监控的补充,服务于故障定位,从集群容量、流量、延迟、错误四个方面梳理。


数据采集方式:


  • 通过 Foreman API

  • Master 日志分析


表 1 通过 Foreman API 获取采集的白盒指标概览



容量


Master 所在实例的 CPU,网络连接数指标,网卡


流量


Agent PV,基于 Puppet Master 的访问日志 puppetserver-access.log 来计算流量



图 4 Agent PV 流量图


延迟


单个 Agent 更新策略需要的时间:puppet_report_time_total


说明:puppet_report_time_total 是 Agent 从连接 Master 到发送报告给 Master 总时间,0-3s 的占 50%,0-11s 的占 90%,0-15s 占 99%。



图 5 Agent 延迟


错误


  • No reports:没有报告的实例数量;

  • Error agent:执行策略出错的实例数量;

  • Out of sync:执行策略超时、主机名重复、主机连不上 Master 的实例数量。



图 6 Foreman 错误监控指标

Puppet 监控发现的问题

Agent 覆盖所有机器


问题:不能保证所有机器 Agent 都正常运行。


解决方案:基于服务树或者 CMDB 相关系统将所有机器填加 Agent 进程监控。


Agent 执行策略超时


问题:大文件并发下载时,出现超时告警。


排查方法:在 Agent 上执行命令“puppet agent -t --debug”, 发现在拉取文件时超时,由于文件较大,在 Master 上同时很多 Agent 拉取,导致超时。


解决方案:将大文件存放在云存储上,提高下载速度。


分组不止仅限于现有 Facter 属性


问题:策略分组和灰度发布分组现有 Facter 属性不满足。


原因:随着接入业务越来越多,业务分组也越多。


解决方案:自定义 Facter。


Agent 不同步(Out of Sync)


问题:Agent 报不同步。


原因及解决方案:


表二



策略发布到非预期集群


问题:策略生效范围出错。


原因:Puppet Master 入口文件统一为 site.pp,由于策略分组多,在灰度发布阶段,相应分支也会很多,运维工程师很容易操作出错。


解决方案:将 site.pp 作为一个策略模块进行管理,策略模块中包含默认 default 分组,以及需要灰度发布的分组。manifest 文件夹下的 site.pp 只需 include 该模块即可。



图 7 site.pp 优化后 default 分组策略



图 8 策略发布灰度阶段分组


功能监控发现所同步的文件非预期


问题:Master 采用集群方式部署,在策略变更期间多台 Master 上数据可能不同步,此时,同一 Agent 拉取到的文件可能不一致 。


原因:由于有多台 Master,其中一台 Master 没有更新文件,LB 通过轮询策略进行转发,当 Agent 请求 Master 时是 Master A,再拉取文件时请求的可能是 Master B,两台 Master 数据不一致。


解决方案:LB 策略更新为源 IP 哈希。


本文经授权转自公众号京东云,原文链接为:


https://mp.weixin.qq.com/s/aHC8U9AOUQqhrMz67v4_pg


2019-09-15 16:201685

评论

发布
暂无评论
发现更多内容

程序员常用的IDE工具,你了解哪些?

Speedoooo

小程序 ide 开发者工具 前端开发工具

小企业自动化运维管理用什么软件好?有便宜的吗?

行云管家

IT运维 行云管家 自动化运维 小企业

推荐 | 移动开发主流热更新技术

Speedoooo

小程序 APP开发 热更新

干货!XDR产品安全检测体系如何更好的落地?

极盾科技

网络安全 安全 信息安全 数据安全 xdr

Android进阶(十七)Android 布局

No Silver Bullet

android android布局 8月月更

直播系统源码——重视哪些功能的开发?

开源直播系统源码

软件开发 直播系统源码 直播功能

教你如何轻松实现多队伍排队管理【必看】

天天预约

微信小程序 排队 排队工具 #SaaS应用

用小程序打造超级App,助力社交电商扩大“留量池”

Speedoooo

小程序 社交电商 超级app 用户留存

基于DevCloud进行黑白棋实时对战游戏开发实践

科技怪咖

重磅发布!阿里云全链路数据湖开发治理解决方案

阿里云大数据AI技术

大数据 阿里云 数据湖 数据分析

极盾·析策,XDR的正确打开方式

极盾科技

网络安全 安全 数据安全 xdr

秒验丨使用简介与应用创建

MobTech袤博科技

android iOS SDK 秒验

SpringBoot进阶(叁):Spring Boot启动过程分析

No Silver Bullet

spring-boot 8月月更

ARMS助力羽如贸易打造全链路可观测最佳实践

阿里巴巴中间件

阿里云 云原生 可观测 Arms 客户案例

传媒数字化转型思考:小程序是音视频内容的更优载体技术

Speedoooo

小程序 数字化转型 小程序生态 传媒

企业实践|基于软件研运一体化DevOps平台的应用解析

云智慧AIOps社区

DevOps 自动化 敏捷开发 研发管理 代码托管

数字人民币如何影响传统支付?支付厂商数字人民币应用案例征集

易观分析

金融 数字人民币 传统支付

张宏江谈AI创业:人工智能亟需工程化,创业者大有可为

硬科技星球

Louvain算法在反作弊上的应用

百度Geek说

大数据 算法

使用 HTML、CSS 和 JavaScript 的简单模拟时钟

海拥(haiyong.site)

开源 8月月更

湖南省株洲市有等保测评机构吗?咨询电话多少?

行云管家

网络安全 等保测评 等级测评 株洲

MySql主从同步介绍

京东科技开发者

MySQL 数据库 主从同步

CSDN 加入星策开源社区,携手推动企业智能化转型建设

星策开源社区

企业转型 智能化 CSDN

跟我学Python图像处理丨基于灰度三维图的图像顶帽运算和黑帽运算

华为云开发者联盟

人工智能 图像处理 图像 三维

什么是IP 欺骗以及如何防范?

郑州埃文科技

网络安全 IP

技术分享| 应急指挥调度平台需要这些技术支撑

anyRTC开发者

音视频 快对讲 语音对讲 调度系统 视频对讲

带你玩转“超大杯”ECS特性及实验踩坑

科技怪咖

让GitHub炸锅的深入理解MySQL实战手册,竟出自阿里云“藏经阁”

冉然学Java

Java MySQL 高可用 阿里 构架

汉诺塔(递归+ 非递归版)

Five

算法题 8月月更

火热与争议并行,XDR路在何方?

极盾科技

网络安全 安全 信息安全 数据安全 xdr

Puppet 监控速查手册:问题 / 原因→解决方案_软件工程_京东云应用研发部_InfoQ精选文章