运维老鸟告诉你这个经典Zookeeper问题的根因-InfoQ

本文由 dbaplus 社群授权转载。

大家好，我是一名有着近二十年工作经验的运维老鸟。

你问运维干什么的？呵呵…运维就像三国里的军师，擅长排兵布阵，能够运筹帷幄，统筹大局。再烂的系统，运维也能玩得转！

你说什么？重启能够解决运维 90%的问题？

嗯…嗯…其实…你说的对！重启能够解决 90%的问题，如果不行的话…那就再重启一次试试！

好吧，看看大家眼中的运维是什么样的吧：

至于我对运维的理解…给大家讲讲我们最近解决的一个小问题吧。

一、问题缘由

最近从业务部门纳管了一批 ZooKeeper 集群，在对纳管集群进行巡检的时候，发现其中一个 5 节点的集群存在两个 leader 节点的情况。经与业务部门确认，该集群影响多个重要业务系统，所以在处理问题的时候既要保证 ZooKeeper 集群能够恢复正常服务，又需要确保所有的业务数据不能丢失。

问题集群为三机房部署的可容灾集群，集群信息如下（本文所有 IP 等关键信息已脱敏）：

正常情况下一个 ZooKeeper 集群只能有一个 leader 节点，若干个 follower 节点。如下图：

但是该集群在两个 leader 节点的情况下，各节点依然状态正常，并能够正常提供服务，确实有点奇怪。为了能够说明清楚该问题，我们先了解下 ZooKeeper 集群的选举原则。

二、ZooKeeper 集群选举原则

ZooKeeper 集群的 leader 选举三原则：

集群中只有超过半数以上的节点启动，集群才能正常工作；
在集群正常服务前，myid小的节点给myid大的节点投票，直到集群正常，选出Leader；
选出Leader之后，之前的节点状态由Looking变为Following，以后的节点都是Follower。

假设一个 5 节点的集群，myid 分别是 1、2、3、4、5，依序启动：

1）节点 1 启动

各节点状态（1：启动；2：关停；3：关停；4：关停；5：关停）
选取状态（1: LOOKING；2：-；3：-；4：-；5：-）
集群状态（节点未满半数：失败）

2）节点 2 启动

各节点状态（1：启动；2：启动；3：关停；4：关停；5：关停）
选取状态（1: LOOKING；2：LOOKING；3：-；4：-；5：-）
集群状态（节点未满半数：失败）

3）节点 3 启动

各节点状态（1：启动；2：启动；3：启动；4：关停；5：关停）
选取状态（1: FOLLOWING；2：FOLLOWING；3：LEADING；4：-；5：-）
集群状态（节点过半数：成功）

4）节点 4 启动

各节点状态（1：启动；2：启动；3：启动；4：启动；5：关停）
选取状态（1: FOLLOWING；2：FOLLOWING；3：LEADING；4：FOLLOWING；5：-）
集群状态（节点过半数：成功）

5）节点 5 启动

各节点状态（1：启动；2：启动；3：启动；4：启动；5：启动）
选取状态（1: FOLLOWING；2：FOLLOWING；3：LEADING；4：FOLLOWING；5：FOLLOWING）
集群状态（节点过半数：成功）

三、问题分析

根据集群信息表：

查看 192.176.238.219 的日志发现 4 号节点成为 LEADING 状态时，集群中有 3 个节点：

[myid:4] - INFO  [QuorumPeer[myid=4]/0:0:0:0:0:0:0:0:2181:Leader@946] - Have quorum of supporters, sids: [ 1,2,4 ];

复制代码

满足节点数过半的原则，集群正常服务，但是查看节点内容，发现节点 1、2 的内容和 4 不一致，反而是节点 1、2、3、5 内容是一致的。

查看节点 4 的内容：

查看节点 5 内容：

通过内容排查可以看出节点 1、2、3、5 内容一致，可能属于同一集群，那么节点 4 为什么和其它节点内容不一致呢？

继续排查节点的配置信息，发现节点 4 配置的内部通讯端口：选举端口与其它节点配置的不一致！

节点 4 配置情况：

节点 1、2、3、5 的配置情况：

通过配置排查可以确认 1、2、3、5 是属于同一个集群，那 4 节点又是哪个集群呢？

继续排查发现，在同一批主机下面部署了另一个 ZooKeeper 实例，开放的服务端口是 2182，而其配置的内部通讯端口：选举端口正是 2888:3888。

通过排查这个集群节点的内容发现：节点 1、2 的内容和上面集群的节点 4 内容是一致的，而这个集群 3、4、5 节点的内容又是一致的！通过推断，集群状态如下表：

由于集群 2 和集群 3 都有三个节点，配置的总节点数是 5，均满足节点数过半的原则！

四、问题影响

那么这种情况下会出现什么问题呢？

本来正常情况下 A 类业务系统只读写 2181 端口的集群、B 类业务系统只读写 2182 端口的集群，而现在集群 2 既可以服务 A 类业务，又可服务 B 类业务，如果集群 2 的数据丢失，将影响两类业务的正常运行。

五、解决问题

集群 2 是一个异常集群，但是如果将集群 2 的节点恢复正常并分别加入到集群 1 和集群 3 后，集群 2 的数据势必会丢失。由于 ZooKeeper 集群的数据是由 A 类业务系统和 B 类业务系统进行读写的，解决的方法首先需要将集群 2 的数据导出并根据业务类型进行区分，待集群恢复正常后，再将这部分数据依据业务归属分别重新写入到对应的集群。

集群恢复步骤：

1）为防止数据丢失，备份集群 1、集群 2、集群 3 的数据（snapshot 和 log）。

2）提取集群 2 的数据，并依据业务类型将数据分类，并准备重新写入。

3）关停集群 2 节点 4（192.176.238.219:2181）实例，集群 2 剩余 2 个节点，不满足半数要求，集群重新进行选举，由于集群 2 的 1、2 两个节点的通讯、选举端口和集群 3 配置一致，并且集群 3 已经选举了节点 5 为 leader，那么集群 2 的节点 1、2 将加入到集群 3 成为 follower，形成 5 节点的集群。

4）修改集群 2 节点 4（192.176.238.219:2181）的内部通讯端口:选举端口为 2889:3889

5）启动 192.176.238.219:2181 实例，由于该实例的通讯、选举端口和集群 1 配置一致，并且集群 1 已经选举了节点 5 为 leader，该实例将加入集群 1 成为 follower，形成 5 节点的集群。

6）分别将原集群 2 的数据分类后重新写入到集群 1 和集群 3。

7）检查集群状态，检查集群数据信息，并进行业务测试。

恢复后的集群信息如下：

通过以上操作步骤后，集群恢复正常，丢失数据重新写入，所有业务验证正常。

六、小结

该问题根因很简单，只是一个配置的小问题，但是处理却很容易出错。因为这是一个已经在线运行了很久的系统，往往不会怀疑是配置的问题，在处理该问题时，如果没有理清楚问题根因，只是简单将问题集群重启，表面上问题已经解决，但是大量数据将会丢失会严重影响到业务，并且根因没有找到，问题依旧存在，随时可能复发…

说了这么多，你还认为运维只是简单的重启就能解决问题吗？那什么是运维呢？

其实啊，运维是个灶台，上面背着个黑锅，下面还有个大坑…

作者介绍：

邹春华，新炬网络中间件专家。10 年软件开发工作经验，9 年运营商行业 IT 系统维护经验。精通 C、C++、JAVA、PHP、SHELL 等语言，有着深厚的大型 IT 软件系统开发功底，精通 MQ、Redis、Zookeeper、nginx、tomcat 等技术组件的配置和优化，也擅长 zabbix、Grafana 、cacti、ansbile 等组件的运用，有大量的自动化运维开发实践。

原文链接：

https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650787351&idx=2&sn=5332cc47bc2fd2f043f3462dc7f5773e&chksm=f3f97b82c48ef294a82ce33edd9166b159a0cbeaee292b40e991fba37daa6c26b06c00174f9a&scene=27#wechat_redirect

评论 1 条评论

发布

Geek_60737e

一般会在同几个主机上部署多套zookeeper集群吗？

2020 年 04 月 30 日 13:41

 0 回复

没有更多评论了

优酷蓝鲸近千节点的 Redis 集群运维经验总结
Redis是时下比较流行的Nosql技术。在优酷我们使用Redis Cluster构建了一套内存存储系统，项目代号蓝鲸。到目前为止集群有700+节点，即将达到作者推荐的最大集群规模1000节点。集群从Redis Cluster发布不久就开始运行，到现在已经将近两年时间。在运维集群过程中遇到了很多问题，记录下来希望对他人有所帮助。
语言 & 开发架构运维
一万字详解 Redis Cluster Gossip 协议
大家好，我是历小冰，今天来讲一下 Reids Cluster 的 Gossip 协议和集群操作。
语言 & 开发其他 Redis
Raft 算法（三）：如何解决成员变更的问题？
联合共识不好实现，绝大多数Raft算法的实现，采用的都是单节点变更的方法（比如Etcd、Hashicorp Raft）。
2020 年 3 月 2 日
UML 学习笔记
相信很多开发同学对UML 图并不陌生。为什么突然会写这么一篇八杆子打不着的内容呢？是因为肥壕在写 RocketMQ 源码解析系列的过程中，发现需要有一些图来更好的表达源码中的结构和调用关系。
2020 年 10 月 1 日
课程综述
2018 年 12 月 10 日
k8s 上运行我们的 springboot 服务之——k8s 1.16.0 安装
k8s集群安装
2020 年 5 月 22 日
如何定制自己的 DiscoveryClient
2019 年 5 月 7 日
如何减轻缓存失效时上游服务的压力
2019 年 1 月 7 日
当 Nginx 遇上 Tomcat 集群，又是一场负载均衡的爱恨情仇
想必大家对于Nginx和Tomcat都非常熟悉了，Nginx的应用非常广泛，不仅是对web静态资源非常友好，而且也是非常实用的反向代理和负载均衡软件。结合后端Tomcat的服务，从而搭建Nginx+Tomcat集群。
2020 年 11 月 12 日
故障管理：故障应急和故障复盘
当故障真实发生后，我们该怎么办？今天就和你分享我们在故障通报和故障复盘方面的实践经验。
2018 年 3 月 21 日
线上 Java 程序占用 CPU 过高，请说一下排查方法？
线上一台服务器 CPU 使用率100% 了，如果你碰到这样的情况，如何排查并找到问题原因？这就是一个套路题，所谓套路题就是有标准的套路解法的，掌握了套路，不仅能解决面试官，还能解决问题。不然真的就掉进套路里了。
2020 年 11 月 6 日
TensorFlow 篇 | TensorFlow 2.x 分布式训练概览
「导语」在进行极复杂模型训练以及使用大规模数据进行训练时，往往会受限于单个节点的内存和算力，无法高效快速地完成模型的优化，而分布式训练正是解决上述问题的一剂良药，它可以充分利用集群中各节点的内存和算力资源，加速模型的训练和调优过程。
2020 年 9 月 26 日
手把手教你：将 ClickHouse 集群迁至云上
clickhouse-copier跨clickhouse集群数据迁移详解
2020 年 9 月 29 日
可视化 Tekton 组件 Tekton Dashboard
Tekton Dashboard 使用指南。
2020 年 5 月 13 日
使用 Zookeeper 作为服务注册中心
2019 年 5 月 6 日
我跑步的时候会想些什么
村上春树写了一本书叫《当我谈跑步时我谈些什么》, 这个本书我还没看过（捂脸），不过我知道我在跑步的时候会想些什么。
2020 年 5 月 11 日
我的 Windows Terminal 配置
Windows Terminal
2020 年 5 月 24 日

发现更多内容

运维老鸟告诉你这个经典Zookeeper问题的根因

一、问题缘由

二、ZooKeeper 集群选举原则

三、问题分析

四、问题影响

五、解决问题

六、小结

评论 1 条评论

算法训练营第二期：第二周总结

1.请简述 CAP 原理。

11/1-第二周-作业

架构师训练营 1 期第 6 周：技术选型（二） - 作业

技术选型（2）课后作业

框架设计原则

架构师训练营第 1 期第 6 周总结

第六周总结

架构师训练营第六周命题作业

架构师二期第二周作业

week2学习总结

碎碎念

第 5 周这东西也有标准化答案？？？

第六周课后总结

Week 2 ：框架设计（作业一）

第六周技术选型作业一

架构师训练营 - 第六周作业

6.1分布式关系数据库(上)

架构课第二周Cache UML图

架构师训练营第二周学习总结

架构师训练营第 1 期 - 第 6 周 - 学习总结

第六周作业

第六周总结

与前端训练营的日子--Week01

依赖倒置原则、接口隔离原则优化类的设计

第六周作业

架构师训练营第二期 - 第二周课后练习

第 6 周是这么玩的？？？

架构师训练营第 1 期 - 第 6 周 - 命题作业

week6

MULE 无法接收TCP报文问题分析

运维老鸟告诉你这个经典Zookeeper问题的根因

一、问题缘由

二、ZooKeeper 集群选举原则

三、问题分析

四、问题影响

五、解决问题

六、小结

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载