写点什么

Spark,Storm 和实时分析

  • 2014-06-19
  • 本文字数:746 字

    阅读完需:约 2 分钟

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司,Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎,而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似,通过提供事件处理和分布式计算能力, Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop 是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作,访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera 已经宣布支持 Spark 和 CDH (Cloudera 包含 Apache Hadoop 的版本)。在 2014 上半年, hortonworks 计划在 HDP (hortonworks 数据平台)整合 Apache Storm。

查看英文原文: Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-19 07:539073

评论

发布
暂无评论
发现更多内容

面试官:Redis如何保证高可用?

王磊

Java 面试

超越传统:人工智能赋能的自动化测试新前景

测试人

人工智能 软件测试 测试开发

Udemy 上最受欢迎的免费编程课程

秃头小帅oi

php 学习 React 课程 java

策略分析:Atlassian Server版停止支持,Server版用户应该转向数据中心版本还是云版?

龙智—DevSecOps解决方案

以解析csv数据为例,讨论string、char[]、stream 不同类型来源是否能进行高性能读取解析封装可能性

八苦-瞿昙

C#

手机厂商的开年大考:卷AI,还是卷MR?

Alter

MR 大模型 AI手机

一起学Elasticsearch系列-Pipeline

Java随想录

Java 设计模式

住宅IP代理有什么优势?住宅ip如何购买?

摘星星的猫

【论文精读】| 综述:模糊测试的艺术、科学和工程(上)

云起无垠

用“AI产业顾问”写企业分析报告,五天工作10分钟搞定!

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 文心大模型 文心大模型4.0

区块链游戏解说:什么是 Arcade Champion

Footprint Analytics

Scrutiny for Mac(网站分析检测工具) v12.8.7激活版

iMac小白

强大好用的shell:shell的工作原理

小魏写代码

测试开发名企定向培养训练营,手把手带你提升核心竞争力!

测试人

软件测试 自动化测试 测试开发

通过解析库探究函数式抽象代价

八苦-瞿昙

C#

Premiere Pro 2024 for Mac(PR 2024视频编辑软件) v24.2.1中文激活版

iMac小白

在本地运行 LLMs 的 6 种方法

SEAL安全

人工智能 开源 LLMs

致 Tapdata 全体用户:2023 年,我们把更多精力集中到了产品能力和稳定性上

tapdata

数据库

即时通讯技术文集(第34期):IM群聊技术合集(Part1) [共15篇]

JackJiang

网络编程 即时通讯 IM

建木流水线SaaS版已上线,公测免费体验中!!!

都广科技

DevOps DevOps工具

跨端轻量JavaScript引擎的实现与探索

京东零售技术

JavaScript

密码学在 Web3 钱包中的应用:私钥是什么?bitget钱包为例

威廉META

活动回顾 | DevData Talks沙龙深圳站:中小到千人规模团队研发效能提升实践

思码逸研发效能

通过解析库探究函数式抽象代价 ( ini 解析示例补充)

八苦-瞿昙

C#

客户案例 | 思码逸DevInsight帮助企业提炼关键指标,建立研发效能体系

思码逸研发效能

喜讯 | 思码逸Devinsight 入选中国信通院《高质量数字化转型产品及服务全景图》

思码逸研发效能

云平台纳管是什么意思?用什么工具比较好?

行云管家

云计算 云服务 云平台 云管平台 云管理

访问串是什么?有什么作用?

行云管家

运维 IT运维 访问串

Spark,Storm和实时分析_DevOps & 平台工程_Alex Giamas_InfoQ精选文章