飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

2014-03-11 05:483961
用户头像

发布了 256 篇内容, 共 90.1 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

LabVIEW控制Arduino采集热电偶温度数值(进阶篇—2)

不脱发的程序猿

单片机 LabVIEW Arduino VISA 采集热电偶温度数值

this和super的用法与区别

写代码两年半

继承 super javase this 6月月更

企业网站如何快速被搜索引擎收录

源字节1号

Flutter 利用 Redux 中间件完成购物清单离线存储

岛上码农

flutter ios 前端 安卓开发 6月月更

5分钟了解SDN控制平面

穿过生命散发芬芳

SDN网络 6月月更

Disruptor 高性能堆内队列 系列一

Nick

Java Disruptor 队列 高性能 6月月更

红利、辛苦钱、利润和工资【读书笔记】

FunTester

「技术人生」第8篇:如何画业务大图

阿里巴巴中间件

阿里云 云原生 技术文章

Hexo + Github从零搭建个人博客

梁歪歪 ♚

Hexo 博客搭建

linux中删除特殊文件

入门小站

Linux

FinClip2022重要功能汇总

Speedoooo

微信小程序 APP开发 小程序容器 微信登录

leetcode 51. N-Queens N 皇后(困难)

okokabcd

LeetCode 搜索 算法与数据结构

让开发效率飞速提升的跨端开发神器

Geek_99967b

小程序 小程序容器

跨平台方案的比较

Geek_99967b

小程序 小程序容器

scp 高效操作之避免 zsh 路径展开

Nick

Linux zsh 6月月更 高效操作 scp

使用IDE并不是懒癌表现

Geek_99967b

小程序 小程序容器

InterpreterPattern-解释器模式

梁歪歪 ♚

设计模式

Java设计模式学习总结

梁歪歪 ♚

设计模式

Flutter的整体架构

Geek_99967b

小程序 小程序容器

过去一周区块链热点回顾|BAYC项目具有被无限铸币的风险

区块链前沿News

Hoo

华为云AppCube带你5分钟开发微信小程序

乌龟哥哥

6月月更

运维服务体系构建

阿泽🧸

运维体系 6月月更

在线文本右边批量删除字符工具

入门小站

工具

PC端实现运营小程序,是否能再创PC时代又一春!

Geek_99967b

小程序 小程序转app

每日一题 | LeetCode 1 两数之和

武师叔

Python 算法 JAV A Leet Code 6月月更

阿里6月终于有HC了!耗时两月足足面试13轮成功入职阿里!拿到32*15Offer

Java全栈架构师

Java spring 程序员 面试 程序人生

InfoQ 极客传媒 15 周年庆征文|聊聊 Kafka:Kafka 如何保证一致性

老周聊架构

kafka 架构 云原生 6月月更 InfoQ极客传媒15周年庆

互联网电商项目天花板,从立项到交付快速落地,真正帮你解决大型互联网项目经验欠缺的短板

Java全栈架构师

程序员 面试 项目 架构设计 程序员进阶

答应我:监听日志文件变化的这三种方法你一定要会!推荐第三种!

Java全栈架构师

Java 程序员 面试 IDEA 代码人生

深入浅出-如何安全的传输密码

梁歪歪 ♚

加密

面试官:执行一条 SQL 语句,期间会发生什么?

Java全栈架构师

Java MySQL 数据库 程序员 面试

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章