分布式流处理框架Apache Samza成为Apache的顶级项目_开源_李小兵

FinOps有望降低企业50%+的云成本！了解详情 



 写点什么

Apache Samza 是一个开源、分布式的流处理框架，它使用开源分布式消息处理系统 Apache Kafka 来实现消息服务，并使用资源管理器 Apache Hadoop YARN 实现容错处理、处理器隔离、安全性和资源管理。近日，从 Apache 官方博客中得知，开源的分布式流处理框架 Samza 历经 18 个月的孵化期后终于升级成为 Apache 的顶级项目。Samza 由 LinkedIn 于 2013 年 9 月开源并作为孵化项目贡献给Apache。

LinkedIn 的工程部和运营部的高级副总裁 Kevin Scott 在公布消息的博文中说到：

Samza 能够被广泛的使用并成为 Apache 的顶级项目真是令人兴奋，开发 Samza 是为了帮助解决 LinkedIn 流数据处理高性能的挑战，Samza 已经成为 LinkedIn 业务架构的核心部分。

Improve Digital 的 CTO Garry Turkington 在博文中说到：

Improve Digital 已经积累了丰富的 Samza 经验，这使得 Improve
Digital 使用 Samza 能够构建出功能强大的流数据处理平台。此外，Samza 能够升级成为 Apache 顶级项目真是太棒了。

Samza 非常适用于实时流数据处理的业务（如同 Apache Storm ），如数据跟踪、日志服务、实时服务等应用，它能够帮助开发者进行高速消息处理, 同时还具有良好的容错能力。在 Samza 流数据处理过程中，每个 Kafka 集群都与一个能运行 Yarn 的集群相连并处理 Samza 作业。Samza 的一个简单处理过程如下图所示：

Samza 的主要特征如下：

简单的 API：Samza 提供了一个简单基于回调且兼容 MapReduce 的消息处理 API。
状态管理：Samza 提供了一个基于 LevelDB 的 Key/Value 数据库来存储历史数据，从而实现了有状态的消息管理。
容错处理：每当集群中的一台机器发生故障时，YARN 将会透明地将相关任务迁移到其他机器上。
持久性：Samza 使用 Kafka 保证消息的有序处理，并能够持久化到分区，不存在发生消息的丢失的可能。
可扩展性：Samza 在每个层结构都是可分区和分布式的，Kafka 提供了有序、可分区、可追加、容错的流；YARN 提供了一个分布式、供 Samza 运行的容器环境。
可插拔 / 开箱即用：Samza 提供了一个可插拔特性的 API，该 API 使得 Samza 不仅能够使用 Kafka 和 YARN，还能够使用其他的消息系统和执行环境。
资源隔离：通过使用 YARN 实现了对 Hadoop 安全模型和资源隔离的支持。

LinkedIn、Microsoft、 Confluent 、Oracle、 Hortonworks 、 Uber 和 Improve Digital 等众多著名公司都在为 Samza 贡献代码。Samza 已在商务智能（BI）、金融服务、医疗保健、安全服务、移动应用、软件开发等行业得到了广泛应用，其用户包括企业移动应用提供商 DoubleDutch 、欧洲领先的实时广告技术提供商 Improve Digital、金融服务公司 Jack Henry & Associates 、移动商务解决方案提供商 MobileAware 、基于云的微服务提供商 Quantiply 、社交媒体商务智能解决方案提供商 VinTank 等。

此外，实时 / 流计算框架除了 Samza 外，还包括 Google Dremel 、 Apache Drill 、Apache Storm 以及 Apache S4 等。有兴趣的读者可以通过官方提供的 Hello Samza 工程尝试下 Samza，或者参见 Background 页面以获得更多关于 Samza 的信息。读者还可以阅读 LinkedIn 资深 SRE Jon Bringhurst 发表的一篇博文，该篇博文主要阐述了LinkedIn 是如何利用Samza 与Yarn、Kafka 进行扩展的，它能够帮助大家深一步地了解Samza。

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

需要帮助，请添加网站小助手，进入 InfoQ 技术交流群

创作场景

分布式流处理框架 Apache Samza 成为 Apache 的顶级项目

评论

如何搭建短视频app源码，实现短视频内容的播放优化

什么是加密？有哪些加密类型和加密算法？逆天原创神作，值得一读！

系统运维 SIG 直播： libbpf 编译平台 LCC——eBPF从入门到享受 | 第 20 期

优酷端侧弹幕穿人技术实战之：PixelAI移动端实时人像分割

刘勇智：一码通缺陷分析与架构设计方案丨声网开发者创业讲堂 Vol.02

SpringBoot官方支持任务调度框架，轻量级用起来也挺香！

java培训流Stream循环遍历list

我常用的两个翻译神器！程序员必备 | JavaGuide

基于 spring-cloud-k8s 跨NS坑续集

GIT 常见问题

写入速度提升数十倍，TDengine 在拓斯达智能工厂解决方案上的应用

电商后台权限设置有哪些规范你知道吗！

数字货币持币生息质押理财dapp系统开发

使用 JavaScript 开发AR(增强现实)移动应用的预备知识和环境搭建

【LeetCode】爱吃香蕉的珂珂Java题解

一二三线互联网公司划分标准和榜单

这本书押中了2022北京高考作文题！

架构实战营|模块3

C#/VB.NET 在Word中设置纯色/渐变/图片背景

JavaScript原型链继承与盗用构造函数继承

Web Service进阶(七)浅谈SOAP Webservice和RESTful Webservice

聚焦中国算力大会 | 浪潮集团肖雪：数字化转型新场景激发算力需求

网络七层结构是干啥的？看这篇文章就够了

OA协同办公系统的发展趋势

模块八：作业

Linux驱动开发_倒车影像项目介绍

【Python技能树共建】正则表达式

面试突击55：delete、drop、truncate有什么区别？

帮助中心对企业有用吗？要不要做帮助中心页面？

SAS击球实验室向青少年展示数据与分析的价值

Vue 中 JSX 的基本用法

创作场景

分布式流处理框架 Apache Samza 成为 Apache 的顶级项目

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载