写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

2014-03-11 05:483809
用户头像

发布了 256 篇内容, 共 85.2 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

江西吉安:一个上了区块链柚子的真情告白

CECBC

区块链 蜜柚

当千行万业的轨道,换上智能云网的高铁

脑极体

“黑五”前夜的裁员:无接触配送大趋势为什么都带不动亚马逊无人机?

脑极体

构师训练营 - 第六周学习总结

joshuamai

数字货币管理三大新模式

CECBC

数字货币

3本书免费学习数据科学与统计学

计算机与AI

统计学

周小川深度解读:DC/EP和数字人民币e-CNY

CECBC

数字人民币

一万字详解 Redis Cluster Gossip 协议

程序员历小冰

redis 分布式 redis cluster

AOT星辰生态系统APP开发|AOT星辰生态软件开发

系统开发 现成系统

面对日益严峻的网络安全问题,CDN可以做什么?

阿里云Edge Plus

2020亚马逊“黑五”再次成为亚马逊史上最大的年终全球狂欢

爱极客侠

线程模型Reactor/Proactor的区别

Linux服务器开发

reactor 线程 多线程 Linux服务器开发 Proactor

稳坐开发领域霸主之位,揭秘C语言无可取代的几大原因!

华为云开发者联盟

c rust Go 语言

Spring AOP核心类解析,这是最全的一篇了!!

冰河

spring aop ioc 注解驱动 切面编程

架构师训练营 -week11-作业

大刘

极客大学架构师训练营

将项目发布到 Homebrew 官方仓库

郭旭东

macos brew homebrew

区块链电子发票应用落地,区块链电子发票系统开发

13530558032

《穿越数据的迷宫》笔记:第 2章 数据管理的挑战

方志

数据治理

年轻人会用C++实现一种协程吗?

ShenDu_Linux

Linux 程序员 多线程 协程 什么是多线程

华为云&跟谁学|华为云API入门学习赛·AI人脸识别 未来工程师梦想的起点

DT极客

JVM调优不知道怎么回答,阿里总结四大模块,学不会就背过来

996小迁

Java 架构 面试 调优

区块链版权应用搭建,区块链版权存证平台开发

13530558032

SpringBoot整合Mybatis-Plus 实战之动态SQL,Mybatis最拿得出手的功能之一

比伯

Java 编程 架构 面试 计算机

框架设计

raox

极客大学架构师训练营

区块链商品追溯平台开发,区块链防伪追溯系统搭建

13530558032

什么是KMP算法(详解)

赖猫

c++ Linux KMP

LeetCode题解:51. N 皇后,回溯+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

「五大常用算法」一文搞懂分治算法

bigsai

算法 分治算法;

自己搭建服务器需要多少钱?

德胜网络-阳

我理解的信息化、数字化、数智化

boshi

数字化 数据智能 信息化

构师训练营 - 第六周课后练习

joshuamai

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章