写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:015972
用户头像

发布了 268 篇内容, 共 122.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

TiDB 首批通过信通院 HTAP 数据库基础能力评测

PingCAP

#TiDB

如何确定解决的问题的价值?

珑彧

方法论

《解构领域驱动设计》-软件复杂度解析

珑彧

读书笔记 方法论 领域驱动设计 DDD 复杂

2022年11月中国网约车领域月度观察

易观分析

网约车 行业 打车

详解UDS CAN诊断:SecurityAccess Service(SID:0X27)

不脱发的程序猿

汽车电子 CAN ISO 14229 诊断和通信管理功能单元 SecurityAccess Service

谈谈你在面试中遇到的一面、二面、三面有什么区别?

风铃架构日知录

Java java面试 程序员面试 面试‘’ 面试流程

基于低代码平台构筑金融行业IT运维服务体系

明道云

架构训练营模块三作业

现在不学习马上变垃圾

架构训练营10期

TableLayout(表格布局)

梦笔生花

Android Studio tablelayout 表格布局

ChatGPT 使用 API 进行 Postman 调用测试

HoneyMoose

深入react源码看setState究竟做了什么?

flyzz177

React

数益工联 x TiDB丨如何运用 HTAP 挖掘工业数据价值?

PingCAP

#TiDB

TiCDC 在大单表场景下的性能优化:我们如何将吞吐量提升 7 倍?

PingCAP

#TiDB

2023-01-04:有三个题库A、B、C,每个题库均有n道题目,且题目都是从1到n进行编号 每个题目都有一个难度值 题库A中第i个题目的难度为ai 题库B中第i个题目的难度为bi 题库C中第i个题目

福大大架构师每日一题

算法 rust Solidity 福大大

属于 PingCAP 用户和开发者的 2022 年度记忆

PingCAP

#TiDB

2022年人民满意手机银行服务白皮书

易观分析

金融 白皮书 手机银行 用户

看透react源码之感受react的进化

flyzz177

React

从源码角度看React-Hydrate原理

flyzz177

React

5A原则

穿过生命散发芬芳

1月月更

欢迎来到,个人数据安全“世界杯”

脑极体

LiveMe x TiDB丨单表数据量 39 亿条,简化架构新体验

PingCAP

#TiDB

链上隐私交易成新刚需,Unijoin.io或成该赛道新契机

股市老人

k8s 学习实战(一)

AiDaddy

k8s安装 kubenetes

React源码分析(一)Fiber

flyzz177

React

从recat源码角度看setState流程

flyzz177

React

TiCDC 源码阅读(二)TiKV CDC 模块介绍

PingCAP

#TiDB

2022年中国证券类APP创新专题分析

易观分析

金融 证券 证券app

ChatGPT 最近火得不要不要的

HoneyMoose

React-Hooks源码深度解读

flyzz177

React

Java高手速成 | 数据库实训:图书馆管理系统建模

TiAmo

数据库 管理系统 1月月更

Kubernetes 跨集群流量调度实战 :访问控制

Flomesh

Service Mesh 服务网格 服务网格

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章