写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:169762
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 136.3 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

吴桐:2021年中国区块链产业发展的六大趋势

CECBC

区块链 新基建

ETV全球熵APP系统开发|ETV全球熵软件开发

系统开发 现成系统

从战略到战略决策

Alan

战略管理 使命 愿景 战略思考 MVO

可参考才是有价值的,架构设计的技改之路从来都不容易

互联网应用架构

架构设计

架构师训练营第二周课后作业

万有引力

只能用分布式锁,也能搞定每秒上千订单的高并发优化?

Java架构师迁哥

Kafka 和 RocketMQ 之性能对比

中间件兴趣圈

kafka 源码分析 RocketMQ 中间件 性能分析

vue高级进阶系列——用typescript玩转vue和vuex

徐小夕

Java vue.js Vue 大前端

架构师训练营第十一周

我是谁

极客大学架构师训练营

区块链中的保险行业

13828808769

区块链技术应用开发 保险理赔

拆解增长黑客之知识篇

懒杨杨

产品 运营 增长

腾讯 WXG 后台开发工程师对 MySQL 索引知识点总结

Java架构师迁哥

Defi系统APP开发|Defi软件开发

系统开发

依赖倒置原则以及接口隔离方式实现接口设计

我们新四军不拿群众一针一线

保障系统稳定高可用的方案

天天向上

极客大学架构师训练营

我对业务方提出需求的态度

boshi

随笔杂谈 需求落地

智能与影像的强耦合:华为Mate 40系列的视觉探索

脑极体

《操作系统概述》-第六版

计算机与AI

操作系统

两年竞业禁止、没有赔偿的CTO | 法庭上的CTO(1)

赵新龙

CTO 竞业禁止 试用期

智慧公安大数据分析平台开发解决方案

t13823115967

大数据 智慧公安

公安警务大数据可视化平台开发建设

t13823115967

大数据 智慧公安

第二周作业

Geek_b9053c

依赖倒置原则

【得物技术】搜索引擎技术简介

得物技术

搜索引擎 技术 算法 排序 搜索

LeetCode题解:52. N皇后 II,回溯+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

架构词典: 复盘

lidaobing

架构 复盘

京东云的云原生理念及Serverless最佳实践

lidaobing

第一周作业

极客大学 极客大学架构师训练营

Week 11 work

黄立

Windows下常用软件配置

jiangling500

windows 软件配置

系统安全与高可用

天天向上

HTTP协议概述

落日楼台H

https HTTP 协议 HTTP2.0 HTTP3.0

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章