写点什么

Spark,Storm 和实时分析

  • 2014-06-19
  • 本文字数:746 字

    阅读完需:约 2 分钟

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司,Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎,而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似,通过提供事件处理和分布式计算能力, Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop 是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作,访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera 已经宣布支持 Spark 和 CDH (Cloudera 包含 Apache Hadoop 的版本)。在 2014 上半年, hortonworks 计划在 HDP (hortonworks 数据平台)整合 Apache Storm。

查看英文原文: Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-19 07:539088

评论

发布
暂无评论
发现更多内容

RocketMQ 重试机制详解及最佳实践

阿里巴巴云原生

阿里云 RocketMQ 云原生

学历不是问题!社招大专老哥阿里 腾讯Java面试,上岸入职京东

钟奕礼

java程序员 java面试 java编程 #java

Spring 5(五)事务操作

浅辄

Spring5 事务 11月月更

【LeetCode】统计匹配检索规则的物品数量Java题解

Albert

算法 LeetCode 11月月更

声网深度学习时序编码器的资源预测实践丨Dev for Dev 专栏

声网

深度学习 算法 模型

MetaForce佛萨奇2.0系统开发DAPP搭建

薇電13242772558

dapp开发

Python图像处理丨5种图像处理特效

华为云开发者联盟

Python 人工智能 华为云 图像处理

AOP 的九点核心概念和作用

千锋IT教育

极客时间架构训练营模块六作业

李晨

架构

阿里P8出,入职阿里必会199道SpringCloud面试题,你能掌握多少?

钟奕礼

Java java程序员 java面试 java编程

数据库精选 60 道面试题

钟奕礼

Java Java 面试 java程序员 java编程

Wallys/ WiFi6 MiniPCIe Module 2T2R 2×2.4GHz 2x5GHz MT7915 MT7975 /industrial mini pcie card

wallysSK

MT7915

5种GaussDB ETCD服务异常实例分析处理

华为云开发者联盟

数据库 后端 华为云

使用 Fiori Elements 框架创建 UI5 Web 应用

汪子熙

web开发 Fiori SAP UI5 ui5 11月月更

腾讯T4带你玩转Spring全家桶

钟奕礼

Java java程序员 java面试 java编程

低门槛上手快!火山引擎VeDI这样满足数据分析新需求

字节跳动数据平台

大数据 BI

Meta Force 原力元宇宙公排系统开发详情

开发微hkkf5566

微服务中的服务发现是什么?

API7.ai 技术团队

微服务 服务发现 API网关 APISIX

PolarDB-X 开源分布式数据库进阶营免费报名中!

阿里云数据库开源

MySQL 数据库 阿里云 开源 PolarDB-X

终于有人把这份10 万字节详细面试笔记(带完整目录) 整理出来了

钟奕礼

Java java程序员 java面试 java编程 Java 面试题

成为千行百业数字化转型催化剂的,竟然是它!

元年技术洞察

微服务 低代码 数字化转型

PCB设计必须考虑的8种安全距离,搞错1种都出大问题!

华秋PCB

PCB PCB设计

灵雀云ACP 斩获“2022金边奖-最佳云原生边缘云平台”

York

容器 云原生 5G 边缘计算 边缘云

大数据培训学习需要什么基础

小谷哥

大数据培训和自学哪种方式更好

小谷哥

首批招募 50 家!「龙腾社区生态发展计划」正式发布

OpenAnolis小助手

开源 操作系统 云栖大会 龙蜥社区 合作

离职、被毕业?职场打工人的最强生存指南!

千锋IT教育

深究并行编程Parallel类中的三大方法 (For、ForEach、Invoke)和几大编程模型(SPM、APM、EAP、TAP)

C++后台开发

多线程 后端开发 linux开发 C++开发 并行编程

消息队列 RocketMQ 5.0:从消息服务到云原生事件流平台

阿里巴巴云原生

阿里云 RocketMQ 云原生

软件测试 | 测试开发 | 校招面试真题 | 实习生和应届生有什么区别?

测吧(北京)科技有限公司

软件测试 软件测试工程师

Dive into TensorFlow系列(3)- 揭开Tensor的神秘面纱

京东科技开发者

Python 人工智能 深度学习 tensorflow

Spark,Storm和实时分析_DevOps & 平台工程_Alex Giamas_InfoQ精选文章