2025 AI基础设施风向标,不看必后悔!#AI基础设施峰会 了解详情
写点什么

步步惊心,Zookeeper 集群运维“避坑”指南

  • 2019-08-13
  • 本文字数:2780 字

    阅读完需:约 9 分钟

步步惊心,Zookeeper集群运维“避坑”指南

Zookeeper(文中简称 ZK)是一个开放源码的分布式应用程序协调服务,是 Google 公司 Chubby 服务的开源实现,同时也是 Hadoop 和 Hbase 等开源软件的重要组件。文章将从 ZK 监控案例的角度出发,让大家了解 ZK 的一些重要监控指标。

服务故障案例

容量问题:

部分 follower 处于非同步状态后,手工重启异常的 follower,结果 follower 依然无法加入集群。怀疑是集群有问题,因此重启整个集群,重启后集群始终无法进入正常状态,没有 leader 导致服务瘫痪。事后查看,快照体积达到 GB 级别,而 initLimit 默认值仅为 20s,follower 重启后无法在 20s 内同步完 GB 级别的数据,因此被踢出集群。而重启操作又加剧了这一问题,导致集群整体崩溃。最终,通过将故障前 leader 节点的快照手工同步到所有节点,并调大了 zoo.cfg 的同步时间相关的参数,服务才恢复。


在这个案例中,快照体积过大是故障的主要原因,我们需要优化 initLimit 和 syncLimit 参数、规范业务对 ZK 的使用方式、避免把 ZK 当作通用的文件存储系统,同时也需要添加对快照体积(zk_approximate_data_size)的监控,超过 1GB 就需要报警。类似的问题,如果 ZK 的节点数过多,也会造成集群性能严重下降,因此也需要添加对 ZK 集群的节点数(zk_znode_count)的监控,超过 10 万个节点就需要报警。

资源问题:

ZK 集群和 Hadoop 部署在同一批物理机上,当 Hadoop 计算任务增加后,将物理机 CPU 打满,同机部署的 ZK 集群就无法响应外部请求,进而所有依赖该 ZK 的 Hadoop 服务均会崩溃。不仅仅是 CPU,ZK 还依赖单机的磁盘空间,磁盘的 IO 能力,网络等。鉴于此,对于 ZK 集群还是建议独立部署,不要混部。同时,对 ZK 所在机器的 CPU/MEM/NET/IO 等进行监控,避免其资源被占用。


还有就是 ZK 集群的文件句柄数,使用了系统默认的 10240,而系统实际的压力远不止于此,因此会出现 ZK 无法处理部分新的请求,而问题定位的成本和耗时也会增加。发现问题后,通过调整 ZK 运行账号的文件句柄数限制并重启服务即可解决。


在这个案例中,如果及早添加了 zk_open_file_descriptor_count/zk_max_file_descriptor_count,则能够避免该问题。同时,很多开源软件都会遇到文件句柄数的问题,且多次引发各类系统的重大故障,所以还是要谨慎对待。

流量问题:

一个分布式系统上线新功能,其客户端在前几日逐步更新后未发现问题,因此在某一日对客户端进行了全量更新,所有客户端均会定期请求 ZK 集群,造成 ZK 集群无法处理如此海量请求,集群直接崩溃。该客户端也不得不全部回滚。虽然,这个 ZK 集群当时设置 leader 不接收请求,且对单个 IP 最高并发请求数也进行了限制,但这依然无法改变集群面对海量请求直接崩溃的结果。


在这个案例中,如果及早添加了流量相关的监控,如 ZK 节点连接数(zk_num_alive_connections)以及 ZK 节点流量( zk_packets_received/zk_packert_sent),可以提前感知到集群流量突增的问题。

服务异常:

follower 故障未及时处理,导致单个集群故障的 follower 数量超过了集群可以容忍的最大值,集群彻底崩溃。这时候需要立即修复故障的 follower。结果发现之前的 follower 因为硬件故障等原因短时间内无法恢复,而业务方大多是直连 IP,因此也无法快速修改。此时集群压力还比较大,即使强行转为单机模式,也需要进行限流。无论如何处理,都会导致服务受损较长时间。


在这个案例中,如果及早添加了 follower 相关的监控,如 zk_followers /zk_synced_followers 以及 zk_server_state,并能保证报警发生后立即处理并恢复服务,则不会出现这种惨剧。

隔离问题:

ZK 集群提供了全地域的协调服务,当 ZK 集群出现故障后,导致服务在全国所有地域不可用。这时候,应该对 ZK 集群进行拆分,每个地域均部署一套独立的集群,将故障范围控制在单一地域。在这个案例中,监控并非主要的问题和解决方案,而讲述该案例的目的,主要是让大家对 ZK 集群故障有一个更加全面的认识。

运维仪表盘

采集项筛选

上面通过和大家分享一些 ZK 故障,让大家了解了一些核心指标的重要性。接下来,我们按照 Google SRE 的监控理论,将 ZK 监控进行系统性的梳理和总结:

黑盒监控

集群功能

创建/删除/读取节点


说明:在/zookeeper_monitor 节点下,定期创建/删除节点,确保该功能可用


建议:创建/zookeeper_monitor 节点,不要使用业务节点,避免互相影响


经验值:模拟用户请求的节点至少 3 个,从而确保覆盖 ZK 所有节点


读取/更新内容


说明:在/zookeeper_monitor 节点下,定期对内容读取和更新


建议:可以将时间戳写入,从而便于判断写入延时

白盒监控

采集方式


  • 方式 1:zookeeper 四字命令 mntr

  • 方式 2:JMX 接口


错误


  • zk_server_state


说明:集群中有且只能有一个 leader,没有 leader,则集群无法正常工作;两个或以上的 leader,则视为脑裂,会导致数据不一致问题


重要性:高


  • zk_followers /zk_synced_followers


说明:如果上述两个值不相等,就表示部分 follower 异常了需要立即处理,很多低级事故,都是因为单个集群故障了太多的 follower 未及时处理导致


重要性:高


  • zk_outstanding_requests


说明:常态下该值应该持续为 0,不应该有未处理请求


重要性:高


  • zk_pending_syncs


说明:常态下该值应该持续为 0,不应该有未同步的数据


重要性:高


容量


  • zk_znode_count


说明:节点数越多,集群的压力越大,性能会随之急剧下降


重要性:高


经验值:不要超过 100 万


建议:当节点数过多时,需要考虑以机房/地域/业务等维度进行拆分


  • zk_approximate_data_size


说明:当快照体积过大时,ZK 的节点重启后,会因为在 initLimit 的时间内同步不完整个快照而无法加入集群


重要性:高


经验值:不要超过 1GB 体积


建议:不要把 ZK 当做文件存储系统来使用


  • zk_open_file_descriptor_count/zk_max_file_descriptor_count


说明:当上述两个值相等时,集群无法接收并处理新的请求


重要性:高


建议:修改/etc/security/limits.conf,将线上账号的文件句柄数调整到 100 万


  • zk_watch_count


说明:对于 watch 的数量较多,那么变更后 ZK 的通知压力也会较大


重要性:中


流量


  • zk_packets_received/zk_packert_sent


说明:ZK 节点接收/发送的 packet 的数量,每个节点的具体值均不同,通过求和的方式来获取集群的整体值


建议:通过两次命令执行间隔 1s 来获取差值


重要性:中


  • zk_num_alive_connections


说明:ZK 节点的客户端连接数量,每个节点的具体值均不同,通过求和的方式来获取集群的整体值


建议:通过两次命令执行间隔 1s 来获取差值


重要性:中


延时


  • zk_avg_latency/zk_max_latency/zk_min_latency


说明:需要关注平均延时的剧烈变化,业务上对延时有明确要求的,则可以针对具体阈值进行设置

其他监控

  • 进程监控(JVM 监控)

  • 端口监控

  • 日志监控

  • 主机监控


附录:Zookeeper 四字命令


  • mntr



  • stat



  • crst、dump、envi、ruok、srst、srvr、cons、wchs、wchc、wchp、conf


相关阅读


阿里巴巴为什么不用 ZooKeeper 做服务发现?


2019-08-13 10:588233

评论 1 条评论

发布
用户头像
Exhibitor,ZooKeeper 的运维工具,提供了监控、日志清理、备份、集群配置、自动实例管理、可视化、REST API 等诸多功能,还可以和 Curator 进行集成。
2019-10-30 14:27
回复
没有更多了
发现更多内容

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v10.0版已发布

JackJiang

网络编程 即时通讯 IM

一文详解数据仓库的物理细粒度备份恢复

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 企业号9月PK榜

第1期 | 抚今 现代企业已步入新的项目制管理时代

用友BIP

项目管理

软件测试/测试开发丨​利用ChatGPT编写测试用例

测试人

软件测试 测试开发 ChatGPT

小灯塔系列-中小企业数字化转型系列研究——进销存测评报告

人称T客

万字长文教你实现华为云IoT+OpenHarmony智能家居开发

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号9月PK榜

iOS16新特性:实时活动-在锁屏界面实时更新APP消息 | 京东云技术团队

京东科技开发者

iOS16 企业号9月PK榜 Live Activity

分布式系统的主键生成方案对比 | 京东云技术团队

京东科技开发者

分布式系统 uuid 企业号9月PK榜 主键生成

交易所开发 通过定制解决方案获得优势:加密货币交易服务

区块链软件开发推广运营

交易所开发 数字藏品开发 dapp开发 区块链开发 链游开发

【ChatGPT-应用篇】基于chatGPT覆盖测试过程的初步探索 | 京东物流技术团队

京东科技开发者

人工智能 测试 ChatGPT 企业号9月PK榜

NFTScan Meetup 上海站主题分享:TON 的发展现状与未来展望

NFT Research

NFT\

微调语言模型前,需要考虑这三个关键方面

Baihai IDP

AI LLM 白海科技 大模型微调 Baihai IDP

TDengine 与煤矿智能 AI 视频管理系统实现兼容性互认

TDengine

时序数据库 #TDengine 恒达智控

坐标休斯顿,TDengine 受邀参与第九届石油天然气数字化大会

TDengine

时序数据库 #TDengine

第五期 PaddlePaddle Hackathon 飞桨黑客马拉松热身赛上线!

飞桨PaddlePaddle

深度学习 编程、

灞桥康养论坛圆满落幕 灞桥康养“四片区”邀您遇见新西安

联营汇聚

http代理ip服务器有哪些?代理服务器有什么作用?

巨量HTTP

代理IP http代理

Hologres RoaringBitmap实践:千亿级画像数据秒级分析

阿里云大数据AI技术

大数据 阿里云

文盘Rust -- tonic-Rust grpc初体验 | 京东云技术团队

京东科技开发者

rust gRPC 虚拟操作系统 企业号9月PK榜

简单好用的音频播放器:Infuse 激活中文最新版

胖墩儿不胖y

媒体播放器 Mac软件 播放器推荐

GaussDB(for Redis)游戏实践:玩家下线行为上报

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号9月PK榜

推送服务本地通知频次及分类管控通知

HarmonyOS SDK

HMS Core

“融合康养产业、乐享宜居灞桥”灞桥康养论坛成功举办

联营汇聚

用友iuap 技术平台:创新基础架构,赋能企业数智化转型

用友BIP

数智底座 2023全球商业创新大会

人民日报发文祝贺,这位作者是藏不住了!

博文视点Broadview

步步惊心,Zookeeper集群运维“避坑”指南_软件工程_京东云应用研发部_InfoQ精选文章