写点什么

Spark,Storm 和实时分析

  • 2014-06-19
  • 本文字数:746 字

    阅读完需:约 2 分钟

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司,Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎,而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似,通过提供事件处理和分布式计算能力, Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop 是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作,访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera 已经宣布支持 Spark 和 CDH (Cloudera 包含 Apache Hadoop 的版本)。在 2014 上半年, hortonworks 计划在 HDP (hortonworks 数据平台)整合 Apache Storm。

查看英文原文: Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-19 07:539159

评论

发布
暂无评论
发现更多内容

浅析Spring中Async注解底层异步线程池原理

得物技术

Java spring 企业号2024年6月PK榜

青椒云如何通过云桌面实现移动图形工作站

青椒云云电脑

图形工作站 移动图形工作站

数字先锋| SaaS服务“拎包入住”?央企数字化转型体验感拉满!

天翼云开发者社区

云计算 数字化转型 SaaS平台

五连冠!天翼云稳居中国专属云服务市场榜首!

天翼云开发者社区

云计算 云服务 IDC

开源数据库生态遇新变数,天翼云TeleDB提供企业数据管理更优解!

天翼云开发者社区

数据库 云计算 存储

鸿蒙系统开发如何实现跨平台功能?

FN0

鸿蒙 跨平台 HarmonyOS 鸿蒙卡片

怎么购买GPT4o?GPT4o买不了怎么办?GPT4o订阅银行卡教程

蓉蓉

openai gpt4o

首期“软件企业 AI 开发提效实战营”成功举办

阿里巴巴云原生

人工智能 阿里云 云原生

从打点平台谈打点治理

百度Geek说

数据质量 企业号 6 月 PK 榜 打点平台 打点治理

IM跨平台技术学习(十一):环信基于Electron打包Web IM桌面端的技术实践

JackJiang

网络编程 即时通讯 IM

云消息队列 ApsaraMQ 成本治理实践(文末附好礼)

阿里巴巴云原生

阿里云 云原生 ApsaraMQ

AI+财务丨以共享智能化为牵引,缔造全链路的无人值守能力

用友BIP

用移动图形工作站做设计是种什么样的体验?

青椒云云电脑

图形工作站 移动图形工作站

孤勇者80岁老教授40年打造国产数据库第一股,达梦开盘暴涨260%

NineData

数据库迁移 国产数据库 武汉达梦数据库 达梦上市 云数据库技术

成就数智企业!用友BIP构建AI+全场景智能服务

用友BIP

首期“软件企业 AI 开发提效实战营”成功举办

阿里云云效

人工智能 阿里云 云原生

WiFi 7 Technology: Market Growth, Opportunities, and Challenges

wallyslilly

ipq9574 IPQ5332

直播预约丨《指标体系建设实战》第三期:指标平台功能架构及落地实践

袋鼠云数栈

指标体系 数据指标 指标 指标平台 指标建设

实现全国算力互联互通,我们是认真的!

天翼云开发者社区

云计算 算力

市值风云APP装机数百万,借助NineData实现数据高效流通

NineData

数据迁移 数据管理 迁移工具 NineData 市值风云

闲鱼商品详情API接口:获取与应用实战指南

Noah

从“数据孤岛”、Data Fabric(数据编织)谈逻辑数据平台

Aloudata

数据孤岛 数据虚拟化 Data Fabric 数据编织

以 ZGC 为例,谈一谈 JVM 是如何实现 Reference 语义的

bin的技术小屋

ZGC JVM GC

selenium滑块解锁实现的研究

霍格沃兹测试开发学社

移动图形工作站有哪些价格实惠的推荐?

青椒云云电脑

图形工作站 移动图形工作站

性能分析: 快速定位SQL问题

EquatorCoco

数据库 sql 性能优化

大厂扎堆入驻鸿蒙,中小应用厂商怎么跟?

ToB行业头条

五月答谢 - 清凉礼包大派送,先到先得

Laval小助手

《ERC-875:开启区块链资产交易新征程》

dappweb

defi 元宇宙开发 区块链开发

如何使用华为NEXT模拟器进行应用开发

彭康佳

android 华为 鸿蒙

Spark,Storm和实时分析_DevOps & 平台工程_Alex Giamas_InfoQ精选文章