写点什么

Spark 之后,谁将接手大数据

  • 2015-08-30
  • 本文字数:1131 字

    阅读完需:约 4 分钟

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache 基金会提出了 Hadoop 平台。该平台的 MapReduce 框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce 刚刚“称霸”大数据不久, Spark 就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃 MapReduce。据预测,Spark 将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark 之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache 基金会所开发的分布式处理平台,Hadoop 最核心的设计包括HDFS 分布式文件系统和分布式计算框架MapReduce。MapReduce 一步步完善,终于成为大数据处理中的核心技术。Hadoop 也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009 年由伯克利大学提出的Spark 项目,异军突起。在不到7 年之间内,Spark 经历了从研究性项目,到Apache 基金项目,进而顶级项目的过程。Cloudera 社区的领军人物 Justin Kestelyn 甚至预测,Spark 将会在五年后彻底替代 MapReduce。而十年之后,MapReduce 将会成为业界的回忆。

Kestelyn 提到,Spark 崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark 为 Scala、Java 和 Python 语言提供了丰富而统一的 API 接口,使其代码量比 MapReduce 可减少 50%-80%。
  • 其次,Spark 为批处理和流处理也提供了统一的 API。
  • 最重要的方面是,Spark 的性能要大大优于 MapReduce。其访问内存数据的速度是 MapReduce 的 100 倍,而访问磁盘的速度也是 MapReduce 的 10 倍。由此可见,Spark 替代 MapReduce 已成为必然趋势。

那么,在日新月异的大数据领域,Spark 又能主导分布式计算多久呢?之后,又是那种技术替代 Spark 呢?MongoDB 的副总裁 Kelly Stirman 曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks 的联合创始人 Ion Stoica 表示,Spark 的成功就与其易用性密切相关。Adobe 公司移动应用方面的副总裁 Matt Asay 也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-08-30 19:016174
用户头像

发布了 268 篇内容, 共 128.6 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

学习路线

hasWhere

c++ 杂谈3

菜鸟小sailor 🐕

《转》Spring事务传播机制

hasWhere

清华架构师整理分布式系统文档:从实现原理到系统实现,收藏吧

小Q

Java 程序员 架构 分布式 微服务

《转》POI的XWPFParagraph.getRuns分段问题

hasWhere

揭秘App的财富密码,剖析算法工程师价值来源

峰池

人工智能 互联网 推荐算法 互联网公司

Redis 缓存性能实践及总结

vivo互联网技术

redis redis集群 redis监控

CICD实战——服务自动构建与部署

TARS基金会

DevOps 后端 jenkins CI/CD TARS

ARChatRoom功能介绍手册

anyRTC开发者

音视频 WebRTC 语音 RTC 安卓

onblur调用alert导致的死循环

hasWhere

学习思路

hasWhere

栈与队列简介

Java旅途

数据结构 队列

鸿蒙系统究竟是PPT秀还是有真材实料?鸿蒙HarmonyOS开发环境搭建与运行Demo

软测小生

华为 鸿蒙 HarmonyOS

Java进阶教程、大厂面试真题、项目实战,GitHub上这14个开源项目屌炸天了!

Java架构之路

Java 程序员 面试 编程语言 项目实战

写给新人算法工程师

峰池

互联网 新人 推荐算法 算法工程师

基于数组的有界阻塞队列 —— ArrayBlockingQueue

程序员小航

Java 源码 队列 源码阅读 JUC

LeetCode题解:641. 设计循环双端队列,使用队列,JavaScript,详细注释

Lee Chen

大前端 LeetCode

Http自定义请求头接收不正确

hasWhere

form表单提交get请求

hasWhere

TensorFlow 篇 | TensorFlow 2.x 基于 HParams 的超参数调优

Alex

tensorflow keras hparams tensorboard 超参数调优

java安全编码指南之:敏感类的拷贝

程序那些事

Java java安全编码 java安全 java安全编码指南

一文了解Zookeeper

Java旅途

kafka zookeeper 分布式

阿里P8大牛力荐Java程序员进阶必读的书籍清单(附电子版)

Java架构之路

Java 程序员 面试 编程语言 书籍推荐

实践案例丨利用小熊派开发板获取土壤湿度传感器的ADC值

华为云开发者联盟

物联网 IoT 传感

《我在你床下》观后感

徐说科技

数据提交

hasWhere

格式化报文输出

hasWhere

如何避免option请求

hasWhere

架构师训练营第 1 期 第 2 周作业

李循律

极客大学架构师训练营

在多架构时代,英特尔扩展高性能计算边界

E科讯

解读华为云原生数据库设计原则,打破传统数据库上云瓶颈

华为云开发者联盟

数据库 数据

Spark之后,谁将接手大数据_开源_张天雷_InfoQ精选文章