写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:246976
用户头像

发布了 43 篇内容, 共 29.6 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

无代码落地进企业,轻流不断扩大交友圈

ToB行业头条

大咖直播专场 | 数据库集群方案简介

KaiwuDB

KaiwuDB 数据库集群方案介绍

学到就是赚到!NodeJS 实战系列:个人开发者应该如何选购云服务

不在线第一只蜗牛

node.js 实战开发

当AGI遇上能源寡头,会碰撞出什么样的火花?

TE智库

特斯联

IoT 场景下 TDengine 与老牌时序数据库怎么选?看看这份TSBS报告

爱倒腾的程序员

数据库·

新增华为高阶智驾+大五座版本!全新问界M7工信部曝光

极客天地

【分久必合】构建下一代前端组件 | 社区征文

小鑫同学

年中技术盘点

AntDB数据库亮相2023操作系统产业大会,携手合作伙伴共建网信生态

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 7 月 PK 榜

同城双中心 DR Auto-Sync 主中心意外故障恢复

TiDB 社区干货传送门

数据库架构设计 7.x 实践

与 AI 同行,利用 ChatGLM 构建知识图谱

NebulaGraph

人工智能 知识图谱 LLM

官宣!菁英实习生计划启动,百度大模型团队诚邀你的加入

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

智能合约编写高级篇(一)获取区块时间

BSN研习社

继长白山历史文化园三园一区后,鼎益丰再造龙狮谷新项目

极客天地

初窥低代码 | 社区征文

神木鼎

低代码 年中技术盘点

AIGC:新AI时代,推动数字人进化的引擎

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

【7.7-7.14】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

GitLab 入选 Forrester Wave™️ 集成软件交付平台,并获评唯一「领导者」!

极狐GitLab

领导力 gitlab Forrester Wave 领导者 创新能力

高效运营新纪元:智能化华为云Astro低代码重塑组装式交付

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

极限抵御DDoS攻击!高防主机守护您的网站安全!

一只扑棱蛾子

高防主机

KaiwuDB CTO 魏可伟:多模架构 —“化繁为简”加速器

KaiwuDB

数据库 AIOT KaiwuDB 多模架构

RisingWave 1.0 版本正式发布!

吴英骏

数据库 rust 云原生 数据架构 流处理

DevOps in China:15年来,DevOps在中国经历了什么?

DevOps和数字孪生

嵌入式DevOps

错过直播?快收藏详实回顾!Get「研发效能管理」7 步实践指南与案例剖析

极狐GitLab

gitlab DevSecOps 效能管理 GDAI 蔚来案例

软件测试/测试开发丨Selenium 安装教程

测试人

Python 程序员 软件测试 selenium

IT安全运维管理系统哪个好?适合中小企业的哪款好?

行云管家

云计算 IT运维 云管理 安全运维

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章