写点什么

Spark 生态顶级项目汇总

  • 2016-03-06
  • 本文字数:1203 字

    阅读完需:约 4 分钟

现在 Apache Spark 已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出 5 个使用广泛的第三方项目。

Spark 官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是 Spark 官方给出的生态系统组件(引自 Spark 官方文档)。

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
  2. Spark SQL:可以执行 SQL 查询,包括基本的 SQL 语法和 HiveQL 语法。读取的数据源包括 Hive 表、Parquent 文件、JSON 数据、关系数据库(MySQL 等)等。
  3. Spark Streaming:Spark Streaming 是 Spark 核心 API,易扩展、高吞吐量、流式数据容错。
  4. MLlib:Spark 的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
  5. GraphX:Spark GraphX 是一个分布式图处理框架,基于 Spark 平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
  6. Spark Core API:Spark 提供多种语言的 API,包括 R、SQL、Python、Scala 和 Java。

除了上述官方的 Spark 组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos
    Mesos 是开源的资源统一管理和调度平台。抽象物理机的 CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
    Mesos 是 Master/Slave 结构,由 Mesos-master,Mesos-slave,Framework 和 executor 四个组件构成。
    为什么官方选用 Mesos,而不是 Spark standalone 模式或者基于 Yarn 框架?由 Spark 开发者所写的书《Learning Spark》:Mesos 优于其它两个资源框架是因为 Mesos 的细粒度调度,这样可让多用户运行 Spark shell 占有更少的 CPU。
  2. Spark Cassandra Connector
    Cassandra 是一个易扩展、高性能的数据库。 Spark Cassandra Connector 现在是 Spark 和 Cassandra 表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector 库让你读 Cassandra 表就如同 Spark RDD 一样,同样可以写 Spark RDD 到 Cassandra 表,并可以在 Spark 程序中执行 CQL 语句。
  3. Zepellin
    Zepellin 是一个集成 IPythoon notebook 风格的 Spark 应用。Zepellin 可以基于 Spark 和 Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。
    Zepellin 也支持其它语言插件,包括 Scala 和 Spark,Python 和 Spark,SparkSQL,HIve,Markdown 和 Shell。
  4. Spark Job Server
    Spark Job Server 提供 RESTful 接口来提交和管理 Spark jobs,jar 包和 job 上下文。Spark Job Server 提供 Spark 任务相关的运行健康信息。
  5. Alluxio
    Alluxio 是一个分布式内存文件系统,它在减轻 Spark 内存压力的同时,也赋予 Spark 内存快速读写海量数据的能力。Alluxio 以前叫做 Tachyon,即钨丝。Spark jobs 可以不做任何改变即可运行在 Alluxio 上,并能得到极大的性能优化。Alluxio 宣称:“百度使用 Alluxio 可以提高 30 倍多数据处理能力”。
2016-03-06 19:246758
用户头像

发布了 43 篇内容, 共 28.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

五种方式实现 Java 单例模式

Jeremy Lai

设计模式 单例模式

详解HashMap源码解析(上)

Jeremy Lai

HashMap底层原理

深入理解Redis 数据结构—字典

Jeremy Lai

字典 redis 底层原理

腾讯发布数字政务核心产品体系,多方位助力政府数字化转型

科技热闻

瓴羊Quick BI带给企业新发展,企业数字营销和运营变得格外简单

对不起该用户已成仙‖

详解HashMap源码解析(下)

Jeremy Lai

HashMap底层原理

SpringBoot快速整合通用Mapper

Jeremy Lai

通用Mapper spring-boot

Centos7安装Nginx教程,一步安装http和https

Jeremy Lai

nginx Linux安装

EMQ助力阿里云飞天洛神云网络构建新一代“亿级并发、百万级吞吐”NLB网络型负载均衡系统

EMQ映云科技

阿里云 物联网 IoT mqtt 12 月 PK 榜

融云&艾瑞发布《政企数智办公平台行业研究报告》,解读数智化时代的办公新趋势

融云 RongCloud

即时通讯 办公 数智化

详解ConCurrentHashMap源码(jdk1.8)

Jeremy Lai

ConcurrentHashMap 源码阅读

字节一面:说说TCP的三次握手

Jeremy Lai

三次握手 TCP协议

手把手教你用Java获取IP归属地

Jeremy Lai

IP地址

小程序正式版报错600002 url not in domain list

Jeremy Lai

小程序

干货 | 五大关键点,帮助企业快速构建可落地的IT服务管理体系

嘉为蓝鲸

运维 嘉为蓝鲸 IT服务

Java通过反射注解赋值

Jeremy Lai

解决问题 java注解

后端程序员实现一个IP归属地的小程序

Jeremy Lai

Seata 环境搭建

Jeremy Lai

分布式事务 seata

Spring Cloud 整合 nacos 实现动态配置中心

Jeremy Lai

nacos 动态配置

Zebec节点Zepoch销量接近800个,生态发展信心十足

股市老人

SpringBoot整合RabbitMQ实现六种工作模式

Jeremy Lai

spring-boot Rabbit MQ

详解MySQL隔离级别

Jeremy Lai

隔离级别

干货 | 企业如何快速采集分析日志?

嘉为蓝鲸

运维 嘉为蓝鲸

Java递归实现评论多级回复

Jeremy Lai

递归 解决方案

模拟HashMap冲突

Jeremy Lai

hashmap 哈希冲突

阿里云ECS后台CPU占用100%,top却找不到

Jeremy Lai

cpu 100% 阿里云;

应用瓴羊Quick BI数据分析,实时掌控企业运营数据

对不起该用户已成仙‖

MySQL更新锁表超时 Lock wait timeout exceeded

Jeremy Lai

事务隔离 Mysql死锁

腾讯云升级云端 IDE Cloud Studio,助力开发“化繁为简”

科技热闻

中国视频云进入“出海”时代,腾讯云音视频发布海外专门品牌及新产品

科技热闻

Spark生态顶级项目汇总_DevOps & 平台工程_侠天_InfoQ精选文章