写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:169685
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 133.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

web前端培训javaScript的内存管理机制分享

@零度

JavaScript 前端开发

打破虚拟边界的视频交互新方式,AR隔空书写的应用理念和探索实践

阿里云视频云

音视频 AR 直播 视频云

预售2小时,破10000册!顶级投资人的投资策略首度全面公开

博文视点Broadview

什么是知识库管理系统?如何搭建企业知识库系统?

小炮

企业知识管理 企业知识管理工具 知识管理系统

MySQL 无法满足查询性能?北明天时选择 TDengine 实现热网监控和能源分析

TDengine

数据库 tdengine 开源 时序数据库

2021最新Spring Boot 面试题

爱好编程进阶

Java 面试 后端开发

Linux驱动开发-外部中断的注册使用(按键为例)

DS小龙哥

4月月更

30 网站架构师职场攻略

爱好编程进阶

Java 面试 后端开发

upnp.exe进程

Sher10ck

日积月累

spring-cloud-kubernetes的服务发现和轮询实战(含熔断)

程序员欣宸

java 4月月更

基于云效Codeup一键恢复删库保护数据资源,程序员删库跑路不复存在

阿里云云效

云计算 阿里云 程序员 代码安全 删库保护

老旧项目二次开发指南

阿毛

重构 项目架构 二次开发

Nocalhost - 让云原生时代的开发更高效

沃趣科技

云原生 Nocalhost 应用开发

一文读懂在OpenHarmony轻量设备开发应用

OpenHarmony开发者

OpenHarmony OpenHarmony应用开发 轻量设备

不同阶段的人,如何学习Rust?加入非凸,一起学习!

非凸科技

rust 招聘 编程语言‘

建木持续集成平台v2.3.0发布

Jianmu

持续集成 工作流 gitops pipeline 建木CI

读《Software Engineering at Google》(09)

术子米德

架构师成长笔记

大数据培训Hive面试核心知识点分享

@零度

大数据 hive

TASKCTL 作业异常报错如何发送短信和邮件

敏捷调度TASKCTL

开源 DevOps 分布式 方法论 敏捷开发

读《Software Engineering at Google》(08)

术子米德

架构师成长笔记

java培训JVM内存模型和GC机制的解析

@零度

Java JVM GC

TASKCTL C/S客户端两种不同的登陆模式

敏捷调度TASKCTL

分布式 ETL 批量操作 自动化运维 调度任务

Spring入门基础

乌龟哥哥

4月月更

2021最新最全Java基础高频面试题汇总(1W字详细解析)

爱好编程进阶

Java 面试 后端开发

技术文档|基于双目感知的封闭园区自动驾驶搭建--感知适配

百度开发者中心

Go 入门很简单:Writer和Reader接口

宇宙之一粟

接口 Go 语言 4月月更

Docker 实战教程之从入门到提高 (七)

汪子熙

Docker 容器 docker image 容器镜像 4月月更

高效压缩位图在推荐系统中的应用

vivo互联网技术

redis 推荐 存储

API对接之模板方法

Rubble

4月日更 4月月更

蓝翔:百度开源深度学习平台飞桨的核心技术及应用

百度开发者中心

读《Software Engineering at Google》(10)

术子米德

架构师成长笔记

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章