AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

Spark,Storm 和实时分析

  • 2014-06-19
  • 本文字数:746 字

    阅读完需:约 2 分钟

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司,Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎,而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似,通过提供事件处理和分布式计算能力, Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop 是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作,访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera 已经宣布支持 Spark 和 CDH (Cloudera 包含 Apache Hadoop 的版本)。在 2014 上半年, hortonworks 计划在 HDP (hortonworks 数据平台)整合 Apache Storm。

查看英文原文: Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-19 07:539286

评论

发布
暂无评论
发现更多内容

麻木得那么快应不应该——韦伯-费希纳定律

Justin

心理学 28天写作 游戏设计

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

五分钟学大数据

大数据 spark 28天写作 3月日更

【LeetCode】下一个更大元素 II Java题解

Albert

算法 LeetCode 28天写作

说完列表说字典,说完字典说集合,滚雪球学 Python

梦想橡皮擦

28天写作 3月日更

智慧党建系统开发,智慧组工平台建设

13530558032

【回溯算法】借助最后一道「组合总和」问题来总结一下回溯算法 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构与算法

饿了么刚给我确认了p7的职位,对自己的经历,做一个面试总结。

Java架构之路

Java 程序员 架构 面试 编程语言

两会热词“区块链”,打开传统溯源的一扇大门!

源中瑞-龙先生

区块链 两会

正则表达式.01 - 元字符

insight

正则表达式 3月日更

需要对未知保持敬畏「Day 14」

道伟

Git 常用记录

Leo

git 大前端

聊聊交易中台系统设计与思考

架构精进之路

中台 七日更

2021年阿里巴巴Java百亿级并发系统设计笔记(全彩版)

Java架构追梦

Java 阿里巴巴 面试 架构师 百亿级并发

架构大作业2

J

区块链电子合同应用平台-助力企业数字化转型

13530558032

总结近期腾讯+阿里+百度Java岗高频面试题,提问率高达98%,看到这篇文章基本offer稳了

Java架构之路

Java 程序员 架构 面试 编程语言

(28DW-S8-Day14) 数据孤岛

mtfelix

28天写作 数据孤岛

5个身份和访问管理的最佳实践

龙归科技

数字身份 身份认证 身份安全 统一身份认证

架构大作业1

J

《经济学人》2021年3月6日刊精彩文章导读及资源下载

wbliu85

该不该签竞业协议?

石云升

程序员 话题讨论 28天写作 职场经验 3月日更

LARAVEL SMTP 服务泄露,laravel env暴露

kaer

laravel 信息安全 漏洞 ENV SMTP

互联网信贷风险与大数据 风险管理&信贷准入

张老蔫

28天写作

区块链药品溯源解决方案-区块链技术监管医药溯源

13530558032

《不看后悔》38个JVM精选问答,让你变成专家

Java 架构 面试 JVM虚拟机原理

Flutter 2 来了

SamGo

flutter

四、查询

Kylin

读书笔记 数据库开发 分布式数据库mongodb 读书总结 3月日更

进程调度算法

鲁米

算法

该死的端口占用!教你用 Shell 脚本一键干掉它!

星安果

Shell 脚本 shell脚本编写 端口 端口占用

如何写 Go 代码

Rayjun

Go 语言

程序员之禅(四)

每天读本书

读书笔记 每天读本书

Spark,Storm和实时分析_DevOps & 平台工程_Alex Giamas_InfoQ精选文章