写点什么

使用 Kafka Streams 构建事件溯源系统的经验分享

  • 2018-07-09
  • 本文字数:1546 字

    阅读完需:约 5 分钟

近期在乌克兰基辅举行的 JEEConf 大会上, Amitay Horwitz 介绍了他的团队是如何实现一个事件溯源的发票系统、系统两年半生产环境运行期间所遇到的挑战,以及团队是如何使用 Kafka Streams 实现新的设计。

Horwitz 是 Wix 的一位软件工程师,他与团队一起在 2015 年着手实现一种新的发票服务,帮助客户在线管理发票并接收付款。在设计新服务时,他们设想能创建一种小规模的简单软件库,具有非侵入式的、能维护数据的完整性、易于添加客户视图等能力。为实现上述目标,团队决定使用事件溯源架构实现服务。

尽管团队努力实现一种简单的设计,但最终软件库还是变得相当庞大。团队在此过程中也碰上了问题,由于读写最终一致性的问题,客户时常无法看到新建立的发票。虽然创建发票的请求更新写模型加入了新发票信息,但此后的请求是从尚未更新的写模型中读取的,因此并未包括新发票信息。

其中最主要的问题在于如何重构视图。在添加新事件处理器时,需确保对传递而来数据的处理要先于对新事件的处理,并在没有事件进入的情况下触发重构。该机制的实现已被证实要比团队先前的设想更为复杂,尤其对于团队所面对的分布式环境,其中的事件来自于各个服务器。这些问题促使Horwitz 考虑寻求采用另一种能保持事件溯源优点的替代架构。

在Horwitz 看来, Kafka 是一种有副本的、容错的、分布式的只添加日志,常用于“发布者 - 订阅者”模式,或是作为队列使用,他指出 Kafka 还可以实现更多的功能。Kafka 的基本结构称为主题(Topic),它是一种分区的逻辑队列。发布者根据消息中的键值将消息推送到各个分区,进而消费者可以消费这些消息。事件溯源系统具有两个重要关键特性,分别是使用单一分区维护消息的顺序,以及消息可在被消费后得到存储。

Kafka Streams 为 Kafka 添加了流处理能力。它提供了两种抽象:

  • 数据流( Streams ):Horwitz 认为数据流是流动的数据,是一种无限有序并可重放的不可变数据序列,适用于事件源系统。
  • 表( Tables ):Horwitz 认为表是静止的数据。表存储了聚合数据在某个时间点的视图,并在接收到新消息时更新。

在使用 Kafka 的发票系统新设计中,团队实现了一个快照状态存储,用于保存每个聚合的当前状态。当从命令流中接收到一个命令后,命令处理器从状态存储中读取相应聚合的当前状态。进而处理器可以决定命令状态是成功还是失败,并通过结果流返回结果。如果命令处理成功,那么系统将创建事件,推送到事件存储并读取新事件的数据流,然后更新状态存储中的聚合状态为新状态。Horwitz 指出,可以使用非常精确和声明式方式编写命令处理器逻辑。在他给出的例子中,仅使用了 60 行的 Scala 代码。

Kafka 是新架构的核心,其中微服务与 Kafka 通信,而且微服务间也是通过 Kafka 通信的。系统还可推送信息到 Kafka,或是在创建分析报告实例时从 Kafka 获取信息。Horwitz 总结了新设计的多个优点:

  • 简单的声明式系统;
  • 考虑并很好地实现了最终一致性;
  • 易于添加或更改视图;
  • 通过使用 Kafka,增强了系统的扩展性和容错性。

InfoQ 的一次采访中,Horwitz 提及尽管他们已在生产中大量地使用了 Kafka,但是新设计依然处于评估阶段。他指出,有人认为 Kafka 并不适用于 CQRS 和事件溯源系统,但是他认为可在明确权衡考虑的情况下充分使用 Kafka。如果用户希望能保存具有客户各种属性的页面浏览事件,那么就可以轻易地根据这些信息创建聚合。Horwitz 认为这符合事件溯源的形式,Kafka 非常适用于此。

如果以聚合标识作为分区键值,那么同一聚合的所有命令最终将位于同一命令主题分区中,并将使用单线程按序处理。这种方式确保了在如果没有处理生成所有下游(downstream)事件的前一个命令,当前命令不会得到处理。Horwitz 指出,该方式建立了强一致性保证。

查看英文原文: Experiences from Building an Event-Sourced System with Kafka Streams

2018-07-09 08:523497
用户头像

发布了 391 篇内容, 共 142.2 次阅读, 收获喜欢 257 次。

关注

评论

发布
暂无评论
发现更多内容

游戏和 NFT 的以太坊代币开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

身为产品经理该如何向客户推广API商品数据接口

Noah

API接口文档 API 安全 API 接口

强化学习与深度学习相结合的新趋势

百度开发者中心

#人工智能 LLM 大语言模型

人工智能 | 自动驾驶技术:实现未来的智能交通

测吧(北京)科技有限公司

测试

人工智能 | AI驾驶系统:改变汽车产业的革命

测吧(北京)科技有限公司

测试

【后台体验】运营后台订单详情设计分享 | 京东云技术团队

京东科技开发者

后台开发 后台管理系统 订单系统 企业号10月PK榜 运营后台

如何精细化管理嵌入式软件项目?ACT汽车电子与软件技术周演讲回顾

龙智—DevSecOps解决方案

七张图解锁Mybatis整体脉络,让你轻松拿捏面试官

小小怪下士

Java 程序员 mybatis

如何有效的给出反馈(二)

ShineScrum

反馈 敏捷教练 敏捷教练引导 高管

深度学习与预训练语言的突破

百度开发者中心

自然语言处理 大模型训练 人工智能「

预训练模型在NLP中的应用与优化

百度开发者中心

自然语言处理 大模型训练 #人工智能

TimeWise-Jira工时管理插件6.0.0发布!对比测评某知名工时插件,谁的数据处理性能更胜一筹?

龙智—DevSecOps解决方案

TimeWise Jira工时管理插件

一文教你如何发挥好 TDengine Grafana 插件作用

TDengine

时序数据库 ​TDengine

中企全球化案例-能源业:“1+2+3+N”,建设全球领先的智慧司库平台

用友BIP

全球司库 中企出海

优化模型之“平均检出率”

矩视智能

深度学习 机器视觉

软件测试/测试开发丨AI大模型应用开发实训营,文末领学习资料

测试人

人工智能 大数据 程序员 软件测试

聊聊JDK19特性之虚拟线程 | 京东云技术团队

京东科技开发者

Java JVM 虚拟线程 jdk19 企业号10月PK榜

微软首款AI芯片代号“雅典娜”;马斯克四年内将让“星舰”上火星丨 RTE 开发者日报 Vol.61

声网

🔥🔥🔥序幕:AIGC 进入“平民化”时代

石头爱分享

AI openai AIGC GPT-4 MidJourney

用友招聘云助力中企出海,充盈全球化人才蓄水池

用友BIP

招聘 中企出海

大模型训练:文本分类的未来之路

百度开发者中心

大模型训练 #人工智能

🔥🔥🔥还没搞懂嵌入(Embedding)、微调(Fine-tuning)和提示工程(Prompt Engineering)?

石头爱分享

Embedding openai AIGC GPT-4 prompt 工程

实现语言理解与生成的新前沿

百度开发者中心

大模型训练 #人工智能 LLM

人工智能—走向智能化生活

测吧(北京)科技有限公司

测试

分布式事务:XA和Seata的XA模式 | 京东物流技术团队

京东科技开发者

分布式事务 seata XA 企业号10月PK榜

Spring AOP 中被代理的对象一定是单例吗?

江南一点雨

Java spring

材质、纹理、贴图的区别和关联

3D建模设计

材质 纹理 贴图

[大厂实践] 重新发明后端子集

俞凡

算法 Google 大厂实践

🔥🔥🔥 计算机视觉 GPT-4V 它来了!

石头爱分享

VQA openai AIGC GPT MidJourney

使用Kafka Streams构建事件溯源系统的经验分享_语言 & 开发_Jan Stenberg_InfoQ精选文章