2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache 顶级项目。
如今,十年光景已过,Spark 成为了大大小小企业与研究机构的常用工具之一,依旧深受不少开发人员的喜爱。如果你是初入江湖且希望了解、学习 Spark 的“小虾米”,那么 InfoQ 与 FreeWheel 技术专家吴磊合作的专题系列文章——《深入浅出 Spark:原理详解与开发实践》一定适合你!
作为系列的第一篇,本文作者将从 Spark 的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。
如果说 RDD 是 Spark 对于分布式数据模型的抽象,那么 DAG 就是 Spark 对于分布式计算模型的抽象。
本期“权力的游戏”将带您走进 Spark 调度系统,笔者将竭尽全力与您一起揭开 Spark 调度系统的神秘面纱。
Spark 存储系统如何为任务的执行提供基础保障?