如何在kafka-python和confluent-kafka之间做出选择？_语言 & 开发_Russell Jurney

AICon 上海站｜日程100%上线，解锁Al未来！了解详情 



 写点什么

在 Data Syndrome，我们使用并喜爱 Kafka。它使我们能够以最少的努力和复杂性将批处理变为实时处理。然而，在最近的一个项目中，我们学到了有关 kafka-python 软件包的惨痛教训，该软件包促使我思考该如何选择开源工具。本文将反思我们的开源决策过程，介绍两个用于 Python 的 Kafka 客户端、我们遇到的问题及我们将采用的解决方案。

kafka-python：蛮荒的西部

kafka-python 是最受欢迎的 Kafka Python 客户端。我们过去使用时从未出现过任何问题，在我的《敏捷数据科学 2.0》一书中我也用过它。然而在最近这个项目中，它却出现了一个严重的问题。我们发现，当以文档化的方式使用KafkaConsumer、Consumer 迭代式地从消息队列中获取消息时，最终到达主题topic 的由Consumer 携带的消息通常会丢失。我们通过控制台Consumer 的分析验证了这一点。

需要更详细说明的是，kafka-python 和KafkaConsumer 是与一个由SSL 保护的Kafka 服务（如 Aiven Kafka ）一同使用的，如下面这样：

复制代码

  
kafka_consumer = KafkaConsumer(
   topic,
   enable_auto_commit=True,
   group_id=group_id,
   bootstrap_servers=config.kafka.host,
   api_version=(0, 10),
   security_protocol='SSL',
   ssl_check_hostname=True,
   ssl_cafile=config.kafka.ca_pem,
   ssl_certfile=config.kafka.service_cert,
   ssl_keyfile=config.kafka.service_key
)
 
for message in kafka_consumer:
   application_message = json.loads(message.value.decode())
   ...

当以这样的推荐方式使用时，KafkaConsumer 会丢失消息。但有一个变通方案，就是保留所有消息。这个方案是 Kafka 服务提供商 Aiven support 提供给我们的。它看起来像这样：

复制代码

  
while True:
   raw_messages = consumer.poll(timeout_ms=1000, max_records=5000)
   for topic_partition, messages in raw_messages.items():
       application_message = json.loads(message.value.decode())
       ...

虽然这个变通方案可能有用，但 README 中的方法会丢弃消息使我对其失去兴趣。所以我找到了一个替代方案。

confluent-kafka：企业支持

发现 coufluent-kafka Python 模块时，我感到无比惊喜。它既能做 librdkafka 的外封装，又非常小巧。librdkafka 是一个用 C 语言写的 kafka 库，它是 Go 和.NET 的基础。更重要的是，它由 Confluent 公司支持。我爱开源，但是当“由非正式社区拥有或支持”这种方式效果不行的时候，或许该考虑给替代方案印上公章、即该由某个公司拥有或支持了。不过，我们并未购买商业支持。我们知道有人会维护这个库的软件质量，而且可以选择买或不买商业支持，这一点真是太棒了。

用 confluent-kafka 替换 kafka-python 非常简单。confluent-kafka 使用 poll 方法，它类似于上面提到的访问 kafka-python 的变通方案。

复制代码

  
kafka_consumer = Consumer(
   {
"api.version.request": True,
"enable.auto.commit": True,
"group.id": group_id,
"bootstrap.servers": config.kafka.host,
"security.protocol": "ssl",
"ssl.ca.location": config.kafka.ca_pem,
"ssl.certificate.location": config.kafka.service_cert,
"ssl.key.location": config.kafka.service_key,
"default.topic.config": {"auto.offset.reset": "smallest"}
   }
)
consumer.subscribe([topic])
# Now loop on the consumer to read messages
running = True
while running:
   message = kafka_consumer.poll()
   application_message = json.load(message.value.decode())
 
kafka_consumer.close()

现在我们能收到所有消息了。我并不是说 kafka-python 工具不好，我相信社区会对它的问题做出反应并解决。但从现在开始，我会一直坚持使用 confluent-kafka。

开源治理

开源是强大的，但是涉及到复杂的“大数据”和 NoSQL 工具时，通常需要有一家大公司在背后推动工具的开发。这样你就知道，如果那个公司可以使用工具，那么该工具应该拥有很好的基本功能。它的出现可能是非正式的，就像某公司发布类似 FOSS 的项目一样，但也可能是正式的，就像某公司为工具提供商业支持一样。当然，从另一个角度来看，如果一家与开源社区作对的公司负责开发某个工具，你便失去了控制权。你的意见可能无关紧要，除非你是付费客户。

理想情况是采取开源治理，就像 Apache 基金会一样，还有就是增加可用的商业支持选项。这对互联网上大部分的免费软件来说根本不可能。限制自己只使用那些公司盖章批准后的工具将非常限制你的自由。这对于一些商店可能是正确选择，但对于我们不是。我喜欢工具测试，如果工具很小，而且只专心做一件事，我就会使用它。

信任开源

对于更大型的工具，以上决策评估过程更为复杂。通常，我会看一下提交问题和贡献者的数量，以及最后一次 commit 的日期。我可能会问朋友某个工具的情况，有时也会在推特上问。当你进行嗅探检查后从 Github 选择了一个项目，即说明你信任社区可以产出好的工具。对于大多数工具来说，这是没问题的。

但信任社区可能存在问题。对于某个特定的工具，可能并没有充分的理由让你信任社区可以产出好的软件。社区在目标、经验和开源项目的投入时间方面各不相同。选择工具时保持审慎态度十分重要，不要让理想蒙蔽了判断。

英文原文链接： https://blog.datasyndrome.com/a-tale-of-two-kafka-clients-c613efab49df

感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

发布

暂无评论

创作场景

如何在 kafka-python 和 confluent-kafka 之间做出选择？

评论

开源之夏来啦，欢迎报名 Apache APISIX 项目！

我人生的里程碑之【作为独立开发者，第一次承接外包项目的心得经历，也许说出你的心声哦！】

博云作为专业独立PaaS厂商，入选中国PaaS市场研究报告

油管视频下载: 如何下载油管视频到本地

Kubernetes学习笔记之Calico CNI Plugin源码解析(二)

《原则》（九）

从零开始学习3D可视化之模型动画

如何科学制定和管理项目计划？

24道几乎必问的JVM面试题，我只会7道，你能答出几道？

阿里云官方出品：全面总结阿里云云原生架构方法论与实践经验

☕️【Java 技术之旅】带你一起攻克String类创建的难点分析

准备3个月，面试10分钟，Java中高级岗面试为何越来越难？

Flink + Iceberg 在去哪儿的实时数仓实践

2021年最新版Java后端最全面试攻略，全面对标BATJ

百度灵医智惠明星案例获人民日报点赞：智慧医疗让看病更便捷

centos7使用

毕昇JDK：为啥是ARM上超好用的JDK

用 CloudQuery 管理和操作数据库，更高效更安全

面试官：如何给字符串设计索引？

基于传感器的人体生命体征监控技术

创业邦南立新：搭建创新生态，是奔向万亿美金市值的必经之路

阿里工作8年，肝到P8就剩这份学习笔记了，已助朋友拿到10个Offer

宜兴牵手百度智能云共建人工智能应用中心，推动数字经济创新发展

超全！阿里首发内部微服务架构笔记，再也不用为“微服务”苦恼了

在外包5年，每天读写删改，突然发现跳不出来了

如何针对美工与设计师的Maya工具进行版本控制

react源码解析9.diff算法

程序员需要了解数据库知识么？

福利时刻十年黑客大佬的Web安全渗透技术分享

建信金科大咖访谈：ISO20000及ISO27001标准体系解读

☕️【Java技术之旅】带你一起探究String类不可变的特性


	kafka_consumer = KafkaConsumer(
	topic,
	enable_auto_commit=True,
	group_id=group_id,
	bootstrap_servers=config.kafka.host,
	api_version=(0, 10),
	security_protocol='SSL',
	ssl_check_hostname=True,
	ssl_cafile=config.kafka.ca_pem,
	ssl_certfile=config.kafka.service_cert,
	ssl_keyfile=config.kafka.service_key
	)

	for message in kafka_consumer:
	application_message = json.loads(message.value.decode())
	...


	while True:
	raw_messages = consumer.poll(timeout_ms=1000, max_records=5000)
	for topic_partition, messages in raw_messages.items():
	application_message = json.loads(message.value.decode())
	...


	kafka_consumer = Consumer(
	{
	"api.version.request": True,
	"enable.auto.commit": True,
	"group.id": group_id,
	"bootstrap.servers": config.kafka.host,
	"security.protocol": "ssl",
	"ssl.ca.location": config.kafka.ca_pem,
	"ssl.certificate.location": config.kafka.service_cert,
	"ssl.key.location": config.kafka.service_key,
	"default.topic.config": {"auto.offset.reset": "smallest"}
	}
	)
	consumer.subscribe([topic])
	# Now loop on the consumer to read messages
	running = True
	while running:
	message = kafka_consumer.poll()
	application_message = json.load(message.value.decode())

	kafka_consumer.close()

创作场景

如何在 kafka-python 和 confluent-kafka 之间做出选择？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载