QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

HubSpot 是如何监控 Kafka 的性能的

  • 2015-10-11
  • 本文字数:929 字

    阅读完需:约 3 分钟

Sidekick 是数字营销公司 HubSpot 的一款产品,用于在接收者打开邮件时实时通知发送者。创建和发送通知的基础设施以 Kafka 为基础创建。 Ze’ev Klapow 是 Sidekick 基础设施团队的一名资深软件工程师。近日,他撰文介绍了他们如何在Sidekick 中监控Kafka 的性能。

Sidekick 通知管道的架构大致如下:

Ze’ev 指出,像上图这样就许多 Kafka 消费者连接在一起,需要监控每个消费者的性能,而且需要在消费者出现问题时快速定位。为此,他们开发了如下两个指标。

“增量(Delta)”

该指标用于确定消费者是否能够跟上某个主题的数据生成速度,如下图所示:

在 Kafka 中,每条消息会发送到某个主题的一个分区上,每条消息在写入时会获得一个递增的偏移量数值。消费者在消费消息时会记录它消费的最后一条消息的偏移量。增量即是该偏移量与分区头之前差异。对于每个 Kafka 消费者,他们会记录如下两个增量数据:

  • 增量总和为所有分区的增量之和。增量总和增加说明消费者太慢或数据量太大,可以考虑扩展消费者,或者增加并发。
  • 最大增量为所有分区中的最大增量。最大增量增加说明只有一个工作进程出现问题,或者分区之间没有实现很好的负载均衡。

“延迟(Lag)”

该指标用于监控消息处理延迟。在 Sidekick 中,他们会在所有的消息上都存储一个时间戳。如下图所示,总延迟为事件创建和通知发送之间的时间,可以帮助他们监控整个管道:

另外,如下图所示:

他们还可以进行更细粒度地延迟监控,这有助于在总延迟开始偏离正常轨道时进行调试。

按照 Ze’ev 的说法,上述两个指标提供了系统健康状况的一个完整视图。当消费者出现问题时,他们首先会依据下表进行问题判断:

Δ↑

情况糟糕!

有地方出现问题了。

情况可能并不坏。

增量增加但延迟稳定可能代表流量峰值或类似的问题。

Δ↑ 增量没有增加,但延迟增加。

可能是该消费者的上游存在问题。

一切正常!

复制代码
**LAG↑**

LAG↓

Ze’ev 表示,当出现问题时,此表可以为问题调试指明方向;当没有问题时,此表可以让他们对系统的性能更加自信。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-10-11 19:003260
用户头像

发布了 1008 篇内容, 共 407.5 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

Redis-十大数据类型

不在线第一只蜗牛

数据库 redis 缓存

Flexus云服务器X实例赋能,用Python将微信公众号秒变智能聊天机器人

轶天下事

剖析——陪玩源码,陪玩平台搭建的各种必备功能与收益来源,游戏陪玩系统源码

DUOKE七七

php 开源 uniapp 陪玩系统源码

YOLOv5 的量化流程及部署方法

地平线开发者

自动驾驶 算法 地平线征程5 地平线征程6

基于Flexus X加速MySQL镜像搭建XXL-JOB任务调度平台

轶天下事

Altair RapidMiner 解锁更高级别的功能,支持用户无缝构建和部署高级 AI agent

Altair RapidMiner

机器学习 #人工智能 altair #数据分析 RapidMiner

出海电商如何解决网络问题

Ogcloud

SD-WAN 跨境电商网络 外贸网络 SD-WAN国际专线 国际网络专线

Gate.io 平台通证 GT:持续赋能与销毁、财富效应显著

股市老人

华为ensp--BGP路由黑洞

阿落ovo

Flexus云服务器X,云上性能新飞跃,开启业务增长新纪元

轶天下事

指标管理+AI大模型深度融合,开启智能数据分析管理新时代

袋鼠云数栈

优化大宽表查询性能,揭秘GaussDB(DWS) 谓词列analyze

华为云开发者联盟

GaussDB #数据库 analyze

探索Flink动态CEP:杭州银行的实战案例

Apache Flink

大数据 flink 数据分析 CEP 实时处理

基于华为云Flexus云服务器X实例部搭建Halo博客平台

轶天下事

华为云Flexus X实例使用教学——完整的配置选择与实操步骤讲解

轶天下事

全新红娘交友系统定制版源码| 相亲交友小程序源码全开源可二开_

DUOKE七七

php 开源 uniapp

性能优化!突破性能瓶颈的尖兵CPU Cache

不在线第一只蜗牛

性能优化

聚力创新|首届BIOV生命科技与再生医疗国际峰会在泰国曼谷圆满举行

TechubNews

向量更新的3种方式

DashVector

人工智能 数据库 大模型

ByConity BSP 解锁数据仓库新未来

Swift社区

华为云Flexus云服务器X实例之openEuler系统下部署GitLab服务器

轶天下事

手把手教你如何用华为云Flexus X实例部署之前爆火的“人生重启“游戏

轶天下事

轻至986g,续航18小时、120TOPS算力!ThinkPad X1 Carbon Aura AI元启版刷新商务AI PC巅峰体验

科技范儿

如何找到可靠的海外云服务器租用商

Ogcloud

云服务器 香港云服务器 美国云服务器 海外云服务器 云服务器租用

部署有声读物和播客的自托管媒体服务器Audiobookshelf

轶天下事

向量检索的3种方式

DashVector

人工智能 数据库 向量检索 大模型

大语言模型的上下文窗口 (Context Windows)

澳鹏Appen

文本生成 LLM 大语言模型

HubSpot是如何监控Kafka的性能的_语言 & 开发_谢丽_InfoQ精选文章