写点什么

关于 RabbitMQ,多么希望当初有人告诉我们这些

  • 2022-10-11
    北京
  • 本文字数:2520 字

    阅读完需:约 8 分钟

关于RabbitMQ,多么希望当初有人告诉我们这些

我的手表嗡嗡作响,在黎明前的昏沉中,我不知道这是闹钟响了还是来电话了。现在是凌晨 4 点 45 分。我回过神来,才意识到这是一个陌生号码来电——这可不是什么好兆头。我接通电话,是我的一个同事——他负责我们的支持团队,为我们的客户处理所有的生产问题。“Ryan,抱歉吵醒你,现在还很早。我们最大的客户报告说,他们发出的请求需要两个多小时才能返回结果。我们认为是我们的信息系统出问题了,但我们不确定接下来该怎么做。我们需要你的帮助。请加入我们的电话会议。”过了一会儿,我的手表又响了,这次是闹钟。今天早上的早起可不是为了锻炼。


我们已经在生产环境中运行RabbitMQ将近三年了,99.5%的时间都没有问题。在此期间,我们扩展到了 200 多个运行在数十个虚拟机上的并发消费者客户端,并处理来自我们.NET 应用程序的数亿条消息。我们的主要业务场景是通过 HTTP 调用 Web 服务,获取 JSON 数据或下载 PDF 文档。我会推荐使用 RabbitMQ,因为我们就用了。在大多数情况下,它都很棒,在我们的系统中表现良好。但这里有一个很大的问题,我们在做架构决策时并不知道。


我们使用RabbitMQ来轮询调度作业的执行结果。一般的操作顺序是这样的:用户通过 Web 应用程序提交请求,后端在处理请求时向 RabbitMQ 中添加消息,消费者客户端获取消息并通过 HTTP 调用另一个 Web 服务,将请求提交给实际处理业务逻辑的服务。然后,轮询逻辑开始接管,队列中的后续消息用于轮询处理结果。如果作业还没有执行结果,消费者将消息放回队列,等待下一次轮询尝试(等待时间可由客户配置)。等待的延迟逻辑使用了存活时间(Time-To-Live,TTL)和死信队列。


我们的非生产集群使用两个或三个节点,生产集群使用三个节点。每个集群都有一个负载均衡器,应用程序的流量严格流经负载均衡器。在运行时,发布者和消费者使用相同的负载均衡器。


你应该知道的


在使用 RabbitMQ 三年后,如果再要写与 RabbitMQ 交互相关的代码,我一定会这样告诉我自己。


一开始就请专家帮忙


你可以大概花 2000 到 3000 美元从 RabbitMQ 咨询公司找来专家,利用这个机会审查和验证你的假设和计划、提出问题、获取建议并进行尽职调查,这样就可以减少可能在未来出现的问题。从长远来看,现在做出正确的决策,最有可能在未来帮你节约成本。或者你也可以像我们一样,在遇到麻烦时找专家帮忙。


我们使用了 EasyNetQ 或 NServiceBus


我们的应用程序使用了 RabbitMQ.Client 库,一些抽象库(如 EasyNetQ 和 NServiceBus)也使用了它。这些抽象库比我更了解 RabbitMQ 的底层交互。RabbitMQ 的驱动程序相对底层,所以你需要了解 RabbitMQ 的底层细节。如果这是你第一次使用 RabbitMQ,我保证你不会对它有任何溢美之词。


如果你想知道“为什么不使用包装器库”,我可以告诉你,最初的开发人员在实现接近尾声时离开了公司,他已经使用了 RabbitMQ.Client ,而这个项目最后落到了我的手上。我没有足够的时间重构(我也没想到要把它换成包装器库)。


网络分区是个大问题


RabbitMQ 一般被部署成集群,集群由一个或多个节点组成,节点是运行 RabbitMQ 实例的服务器或容器。集群中所有的节点都必须运行完全相同版本的 RabbitMQ。


RabbitMQ 提供了一种叫作聚簇(Clustering)的机制,这样你就可以将多个 RabbitMQ 实例链接起来,成为一个逻辑 Broker。你可以将请求发送给集群中的任意一个节点,节点会合作发布消息或将消息发送给消费者。


节点之间通过交换关于消息、队列等的信息不断相互通信。如果通信中断,即使只是几毫秒,RabbitMQ 也会进入分区状态,然后它们会根据配置文件中配置的内容决定如何处理通信中断。默认的处理策略是 ignore,也就是直接进入分区状态,并在这种“脑裂”模式下继续运行,从而使集群陷入完全的混乱。这对我们来说简直就是地狱(对我来说更是如此)。退出分区状态的唯一方法是重启分区一侧的节点,然后重新连接另一侧,并丢弃从集群发生分区时积累的数据。


我经历过两种方式的网络分区:通过 Windows 更新和防火墙规则同时更新集群中所有的节点。


对于这个话题,我可以无休止地咆哮,所以我不得不让自己消停一下。正确的配置应该是将 partition_handling 策略设置为 pause_minority。当集群发生分区时,分区的一侧应该将自己关闭,避免发生脑裂。被关闭的一方继续监控集群,等待恢复通信,并在恢复时重新加入。现在你所要做的就是确保你的代码能够正确地处理断开的连接,这样你就有了一个相当健壮的队列解决方案。


根据 CAP 定理,ignore 策略意味着牺牲一致性换取可用性,而 pause_minority 意味着牺牲可用性换取一致性。如果你问我的话,我认为后者是值得的。


你打算如何升级 RabbitMQ


你的 RabbitMQ 版本总归会有过时的那一天。到时候你会怎么做?继续使用不受支持的版本?创建一个新的集群?你计划怎样将流量从遗留集群迁移到新集群?之前已经提到,集群中的所有节点都应该是相同的版本。如果你的计划是进行就地升级,你就会知道这将是多么棘手。


我留给你的只有问题,没有答案。因为每一个决策都高度依赖具体的组织和运营策略。换句话说,每个人可能都有不同的方法来解决这些问题。


如果 RabbitMQ 的消息全部丢失,你该怎么办


如果 RabbitMQ 中所有(或者三分之一)的消息丢失了,你会有多惨?RabbitMQ 是你用来保存记录的系统吗?你有让应用程序回到正常状态的恢复策略吗?如果你把本地服务器迁移到云端,如何让你的 RabbitMQ 消息再次流动起来?


让发布者和消费者使用不同的连接地址


在未来的某个时刻(可能是在升级期间),你希望能够灵活地向不同的集群或负载均衡器发布消息或读取消息。这是一种零风险高回报的模式,你可以尽早在应用程序中使用这种模式,未来的你会因此感谢现在的你。


不断增长的日志文件将占用几十 GB 的磁盘空间


随着时间的推移,RabbitMQ 的日志文件会增长到占用几十 GB 的磁盘空间。我们可以使用 rabbitmqctl rotate_logs 来滚动这些文件,不过也要努力使这个过程自动化,避免因“磁盘空间不足”导致停机。


结论


RabbitMQ 是我们基础设施的一个稳固的组件,选择它可能是一个正确的决定。但你也应该认真对待我在本文中提出的那些问题,至少应该与你的同事和利益相关者沟通,看看应该试着解决哪些痛点。


原文链接:https://ryanrodemoyer.github.io/what-i-wish-someone-would-have-told-me-about-using-rabbitmq-before-it-was-too-late/


2022-10-11 17:557264

评论 1 条评论

发布
用户头像
写了个寂寞
2022-10-21 23:35 · 广东
回复
没有更多了
发现更多内容

mac软件卸载不干净怎么办?

真大的脸盆

Mac Mac 软件 软件卸载工具 卸载软件

对比编程语言的四种错误处理方法,哪种才是最优方案?

Python猫

编程

今日分享丨inBuilder低代码平台有关前端的“道、法、术、器”

inBuilder低代码平台

前端 低代码平台

软件测试 | 编程语言中的Interface

测吧(北京)科技有限公司

测试

Prometheus实战-从0构建高可用监控平台(三)

小毛驴的烂笔头

Linux Prometheus

锐捷网络,无边光景一时新

脑极体

网络

Django笔记二十五之数据库函数之日期函数

Hunter熊

Python django extract trunc

2023-05-08:我们定义了一个函数 countUniqueChars(s) 来统计字符串 s 中的唯一字符, 并返回唯一字符的个数。 例如:s = “LEETCODE“ ,则其中 “L“, “T

福大大架构师每日一题

Go 算法 rust 福大大

Alibaba技术官熬夜肝出的,Kafka“限量笔记”牛掰!

程序知音

Java kafka java架构 Java进阶 后端技术

什么是点对点传输?什么是点对多传输

镭速

【深入浅出Spring原理及实战】「缓存Cache开发系列」带你深入分析Spring所提供的缓存Cache功能的开发实战指南

洛神灬殇

spring 缓存服务 三周年征文 CacheManager 缓存系统

开源工具系列7:Kube-bench

HummerCloud

Kubernetes 云原生安全

全新 – Amazon EC2 R6a 实例由第三代 AMD EPYC 处理器提供支持,适用于内存密集型工作负载

亚马逊云科技 (Amazon Web Services)

Amazon EC2

阿里云 EMAS & 魔笔:4月产品动态

移动研发平台EMAS

阿里云 DevOps 消息推送 低代码平台 兼容性测试

10年IT老兵亲述SpringCloud开发从入门到实战文档

程序知音

Java 微服务 java架构 Java进阶 spring-cloud

数字化管理时代来临,瓴羊Quick BI、帆软Fine BI领跑国产BI市场

对不起该用户已成仙‖

Django认证系统

测吧(北京)科技有限公司

测试

Fabarta 与青岛市城阳区政府达成战略合作,共同推动区域数据要素市场建设

Fabarta

数据挖掘 数据要素 数据资产管理 图智能 数据要素流通

iOS MachineLearning 系列(13)—— 语音与音频相关的AI能力

珲少

JAVA快速开发框架 一键生成表单模板代码

力软低代码开发平台

毕业设计-100w秒杀设计

Sam

架构实战营

接口测试

测吧(北京)科技有限公司

测试

如何有效的向 AI 提问 ?

繁依Fanyi

人工智能

Prometheus实战-从0构建高可用监控平台(五)

小毛驴的烂笔头

Linux Prometheus

JMeter实时性能监控平台实战

测吧(北京)科技有限公司

测试

项目管理系统Redmine怎么样

爱吃小舅的鱼

项目管理 项目管理软件

数据标注——数字世界的基石

来自四九城儿

Prometheus实战-从0构建高可用监控平台(四)

小毛驴的烂笔头

Linux Prometheus

安卓机上 4G 内存跑 alpaca,欢迎试用轻量级 LLM 模型推理框架 InferLLM

MegEngineBot

开源 大模型 MegEngine LLM

【干货集】PCBA板边器件布局重要性

华秋PCB

工具 电路 PCB 布局 PCB设计

关于RabbitMQ,多么希望当初有人告诉我们这些_开源_Ryan Rodemoyer_InfoQ精选文章