写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:169879
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 140.5 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

第14期师资培训火热招生中尽享国赛智能车一手资料

百度大脑

人工智能

低代码平台想要实现复杂的业务流程,这4个条件不能少!

优秀

低代码

CMS垃圾收集器

张sir

Java JVM 垃圾收集

学会 Java 数据结构,想不飘都难

学Java关注我

Java 编程 架构 程序人生 计算机

2021年金三银四最新美团、字节、阿里、腾讯Java面经,已拿offer!

Java架构之路

Java 程序员 架构 面试 编程语言

三次给你讲清楚Redis之Redis是个啥

华为云开发者联盟

数据库 nosql redis hash 字符串

San介绍以及在百度APP的实践

百度开发者中心

工作中的设计模式 —— 策略模式

程序员小航

Java 设计模式

5G 和云原生时代的技术下半场,视频化是最大最新的确定性

阿里巴巴云原生

人工智能 云原生 5G 存储 调度

​专科出身,2年进入苏宁,5年跳槽阿里,论我是怎么快速晋升的?

码农之家

Java 程序员 互联网 面试 阿里

一位阿里P8技术大牛的Java面试题总结,在GitHub上仅一天就获赞上万!

Java架构之路

Java 程序员 架构 面试 编程语言

软件测试面试题【2021模拟面试整理版(含答案)】

程序员阿沐

面试 软件测试

一不小心,它成为了 GitHub Alibaba Group 下 Star 最多的开源项目

阿里巴巴云原生

Java 微服务 云原生 dubbo Arthas

架构可视化支撑系统演进探索

华为云开发者联盟

架构 软件系统 架构可视化 辅助系统 架构可视化辅助系统

Linux后台开发面试总结

赖猫

Apache-Flume的安装及简单应用

慢慢de

win10 flume 日志采集

跨专业?拿到阿里offer?我是如何一步一步做到的?

Java架构师迁哥

面试阿里P6,却被MySQL难倒,二战阿里,挤进天猫团队(Java岗)

Java 程序员 架构 面试

HugeGraph图数据库获Apache TinkerPop官方认证

百度开发者中心

终于有腾讯架构师把困扰我多年的《计算机网络原理》全部讲明白了

Java 程序员 架构 网络 计算机

三年Java程序员成功跳槽涨薪,这份《阿里巴巴金三银四Java高级面试题》给了我很大的帮助。

Java架构之路

Java 程序员 架构 面试 编程语言

Canalys发布2020 Q4中国云市场报告

百度大脑

百度 AI

开放原子超级链动态内核上线,十分钟可搭建一条区块链

百度开发者中心

「开源」首次被列入“十四五”规划,未来大有可为

百度开发者中心

用AI实践继续探索2050全面数字乡村建设

百度大脑

AI

Impala简介以及与Hive的异同

五分钟学大数据

4月日更 impala

大数据作业的工作流调度详解

大数据技术指南

大数据 4月日更

AI开发降本提效之道:云智一体AI开发全栈模式

百度大脑

百度 AI 飞桨

大牛荐书 | 百度技术大牛都在读的7本书!

百度开发者中心

月薪30K以上的C/C++Linux后台服务器开发学习路线是怎样的?

赖猫

c++ Linux 后台开发 后端

mysql事务隔离的研究

这就是编程

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章