速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

2014-03-11 05:483842
用户头像

发布了 256 篇内容, 共 86.3 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

醒一醒,讲到 ZooKeeper 的选举机制了

HelloGitHub

Java zookeeper ZooKeeper原理

Elasticsearch Reindex & Index Alias

escray

elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

MySQL原理

Sakura

28天写作 3月日更

法大大完成D轮9亿元融资,腾讯领投

人称T客

第二届开发者社区【金码奖】,揭晓了!

京东科技开发者

开发者 开发者社区

历史技术栈体系即将崩溃,我们如何应对?

VoltDB

数据库 5G 边缘计算 VoltDB

LeetCode题解:64. 最小路径和,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

夺命剪刀脚(死锁)

鲁米

方法论 死锁

FutureTask源码解析

程序员星星toC

多线程 Future future设计模式

Python 注释

HoneyMoose

Redis工具收费后新的开源已出现

happlyfox

学习 工具软件 28天写作 3月日更

(28DW-S8-Day19) 以太坊是什么

mtfelix

28天写作

算法攻关-从上到下打印二叉树(O(n))_offer32

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作 算法攻关

四、MongoDB查询(2)

Kylin

读书笔记 分布式数据库mongodb 3月日更

Python 通过命令行安装包的时候 pip 提示错误

HoneyMoose

Hello World!!!

小太阳

“七大属性加持,三个全新升级组件”这个高性能利器有点厉害

华为云开发者联盟

数据库 数据湖 Clickhouse 华为云 集群

Everything is Serverless,从开源框架对比说起

华为云开发者联盟

云计算 开源 Serverless 云原生 无服务器

正则表达式.06 - 断言

insight

正则表达式 3月日更

问题剖析之消息队列的架构设计

Kylin

读书笔记 消息队列架构 3月日更

如何通过XMind 实践OKR 工作法

博文视点Broadview

甚至你可以在网抑云上听歌

ES_her0

28天写作 3月日更

如果写文字只是自我表达「Day 19」

道伟

28天写作

Python yaml 使用的包

HoneyMoose

习惯

lenka

3月日更

深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

xcbeyond

MySQL MySQL优化 3月日更

硬核干货丨借助多容器Pod,轻松扩展K8S中的应用

Rancher

数据分析利器之Excel功能篇

小飞象@木木自由

ARTS - Week 6

Khirye

Java LeetCode arts

软考备考视频的目录

IT蜗壳-Tango

3月日更 软考

你的决定我做主——锚定效应

Justin

心理学 28天写作 游戏设计

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章