写点什么

HubSpot 是如何监控 Kafka 的性能的

  • 2015-10-11
  • 本文字数:929 字

    阅读完需:约 3 分钟

Sidekick 是数字营销公司 HubSpot 的一款产品,用于在接收者打开邮件时实时通知发送者。创建和发送通知的基础设施以 Kafka 为基础创建。 Ze’ev Klapow 是 Sidekick 基础设施团队的一名资深软件工程师。近日,他撰文介绍了他们如何在Sidekick 中监控Kafka 的性能。

Sidekick 通知管道的架构大致如下:

Ze’ev 指出,像上图这样就许多 Kafka 消费者连接在一起,需要监控每个消费者的性能,而且需要在消费者出现问题时快速定位。为此,他们开发了如下两个指标。

“增量(Delta)”

该指标用于确定消费者是否能够跟上某个主题的数据生成速度,如下图所示:

在 Kafka 中,每条消息会发送到某个主题的一个分区上,每条消息在写入时会获得一个递增的偏移量数值。消费者在消费消息时会记录它消费的最后一条消息的偏移量。增量即是该偏移量与分区头之前差异。对于每个 Kafka 消费者,他们会记录如下两个增量数据:

  • 增量总和为所有分区的增量之和。增量总和增加说明消费者太慢或数据量太大,可以考虑扩展消费者,或者增加并发。
  • 最大增量为所有分区中的最大增量。最大增量增加说明只有一个工作进程出现问题,或者分区之间没有实现很好的负载均衡。

“延迟(Lag)”

该指标用于监控消息处理延迟。在 Sidekick 中,他们会在所有的消息上都存储一个时间戳。如下图所示,总延迟为事件创建和通知发送之间的时间,可以帮助他们监控整个管道:

另外,如下图所示:

他们还可以进行更细粒度地延迟监控,这有助于在总延迟开始偏离正常轨道时进行调试。

按照 Ze’ev 的说法,上述两个指标提供了系统健康状况的一个完整视图。当消费者出现问题时,他们首先会依据下表进行问题判断:

Δ↑

情况糟糕!

有地方出现问题了。

情况可能并不坏。

增量增加但延迟稳定可能代表流量峰值或类似的问题。

Δ↑ 增量没有增加,但延迟增加。

可能是该消费者的上游存在问题。

一切正常!

复制代码
**LAG↑**

LAG↓

Ze’ev 表示,当出现问题时,此表可以为问题调试指明方向;当没有问题时,此表可以让他们对系统的性能更加自信。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-10-11 19:003250
用户头像

发布了 1008 篇内容, 共 406.4 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

第三周笔记

orchid9

组件模式

积极&丧

极客大学架构师训练营

代码重构

ABS

第三周 代码重构 学习总结

应鹏

极客大学架构师训练营

架构师训练营第 1 期 02 周 总结

Geek_a01290

极客大学架构师训练营

第三周作业(作业一)

Geek_83908e

极客大学架构师训练营

架构师训练营 - 第 3 周课后作业(1 期)

Pudding

架構師訓練營第 1 期 - 第 03 周作業

Panda

架構師訓練營第 1 期

第3周学习总结:设计模式

云峰

第 3 周作业:手写单例模式

云峰

架构师训练营第 1 期第三周学习总结

郑凯元

极客大学架构师训练营

第3周

paul

架构师作业-第三周-单例

袭望

单例模式

第三周作业

fmouse

极客大学架构师训练营

架构师训练营第 1 期 03 周 作业

Geek_a01290

极客大学架构师训练营

第三周 代码重构 学习笔记

应鹏

学习 极客大学架构师训练营

架构师训练营Week03作业

IT老兵重开始

极客大学架构师训练营

架構師訓練營第 1 期 - 第 03 周總結

Panda

架構師訓練營第 1 期

第三周总结

架构师训练营作业:第三周

m

第三周

等燕归

架构师训练营第 1 期 03 周 总结

Geek_a01290

极客大学架构师训练营

架构训练营 - 第3周课后作业 - 学习总结

Pudding

常用设计模式

wing

第3周作业

wanlinwang

极客大学-第三周作业

Black Eyed Peter

极客大学架构师训练营

第三周作业 (作业二)

Geek_83908e

极客大学架构师训练营

第三周作业

架构师训练营第一期——第三周作业

tao

spring-boot-route(四)全局异常处理

Java旅途

Java Spring Boot

Week 3 作业 02

Croesus

HubSpot是如何监控Kafka的性能的_语言 & 开发_谢丽_InfoQ精选文章