写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:246802
用户头像

发布了 43 篇内容, 共 28.7 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

openGauss- 行级访问控制

Gauss松鼠会

opengauss

淘宝拍立淘接口,以图搜索相似商品接口

tbapi

淘宝API接口 淘宝拍立淘接口

国企数字化转型如何拥抱低代码开发?

不在线第一只蜗牛

低代码 数字化转型

去中心化网络PINGPONG,让普通人也可以参与到节点运行并获益

BlockChain先知

一文读懂PINGPONG:0成本在普通家用机上运行多个网络节点

股市老人

OpenAI 投资, 1X 家务机器人 NEO 发布;微软副总裁:AI 需「学会求助」而非「制造幻觉」丨 RTE 开发者日报

声网

共促国产AI生态繁荣,天翼云重磅发布魔乐开发者社区

天翼云开发者社区

云计算 开发者社区 天翼云

一文读懂PINGPONG:0成本在普通家用机上运行多个网络节点

石头财经

安装门槛极低!30分钟完成企业存储搭建

Swift社区

大模型应用开发实战

不在线第一只蜗牛

AI 大模型

淘宝商品评论API:获取商品使用场景与评价

技术冰糖葫芦

api 网关 API Explorer API 策略 pinduoduo API

Rust China Conf 2024

非凸科技

一文读懂PINGPONG:0成本在普通家用机上运行多个网络节点

大瞿科技

一图看懂天润云(2167.HK)2024年中期业绩

天润融通

万界星空科技机械加工行业MES解决方案

万界星空科技

mes 万界星空科技 制造业工厂 机械加工 机械加工mes

Sentieon 应用教程 | 使用CNVscope进行CNV检测分析

INSVAST

基因数据分析 生信服务 应用教程

DNS解析如何设置合适的TTL值?

国科云

如何在Python程序中使用NFT资产服务API接口?

幂简集成

API NFT

HBlock用户使用指南:盘活系统,解锁存储潜力

数字扫地僧

天翼云 HBlock 天翼云HBlock

金九银十来了,你准备好了吗?——迎接技术行业的旺季

EquatorCoco

程序员 面试 金九银十

服务重启了,如何保证线程池中的数据不丢失?

快乐非自愿限量之名

Java 数据结构 线程池

一文读懂PINGPONG:0成本在普通家用机上运行多个网络节点

加密眼界

以低代码技术加速推动企业数字创新

快乐非自愿限量之名

低代码 数字化转型 企业转型

Kuasar 最前沿:KubeCon China 2024 精彩回顾

华为云原生团队

云计算 容器 云原生

零售商商品规划新纪元:全面策略融合与智能计划系统引领未来

第七在线

ETL数据集成丨SQLServer到Doris的无缝数据同步策略

RestCloud

数据库 Doris ETL SqlServer 数据集成

轻松上手:快速部署天翼云 HBlock 轻量存储系统的真实体验

申公豹

天翼云HBlock

一文读懂PINGPONG:0成本在普通家用机上运行多个网络节点

西柚子

积硅步以致千里,积怠惰以致深渊

Anliven

成长 激励

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章