写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

2014-03-11 05:483820
用户头像

发布了 256 篇内容, 共 85.5 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

Android-目前最稳定和高效的UI适配方案,flutterandroid版本

android 程序员 移动开发

AndroidAnnotation,android计算器实验报告

android 程序员 移动开发

Android—用最简单的案例Demo带你分析解读:Android观察者模式

android 程序员 移动开发

Android-茫茫9个月求职路,终于拿满意offer,最新大厂程序员进阶宝典

android 程序员 移动开发

Android-面试官:性能优化我就问这些问题!能不能刷到我就看你的造化了

android 程序员 移动开发

Android-高级开发面试题以及答案整理,android基础开发

android 程序员 移动开发

AndroidX,斗鱼直播Android开发二面被刷

android 程序员 移动开发

Android事件分发机制,总结到位

android 程序员 移动开发

Android入门项目(八)Android流式筛选弹框,android应用程序开发的流程

android 程序员 移动开发

Android刘海屏、水滴屏全面屏适配方案,80后程序员感慨中年危机

android 程序员 移动开发

Android一次完美的跨进程服务共享实践,android图书管理系统源码

android 程序员 移动开发

Android关于Canvas你所知道的和不知道的一切,银行软件开发面试题

android 程序员 移动开发

Android-记一次解决问题的过程:从源码中分析永远是解决问题的最有效方法

android 程序员 移动开发

Android-黑科技保活实现原理揭秘,kotlin开发微信

android 程序员 移动开发

AndroidX了解一下,Android开发框架

android 程序员 移动开发

Android一线BAT公司面试题你会几道?都解决完就可以进大公司了(1)

android 程序员 移动开发

Android事件分发机制三:事件分发工作流程,开发者必备的顶级Android开发工具

android 程序员 移动开发

Android~DataBinding使用,androidsdk开发实例

android 程序员 移动开发

Android事件分发机制五:面试官你坐啊,android串口开发入门

android 程序员 移动开发

Android企业级实战-界面篇-3,oppo android面试

android 程序员 移动开发

Android-金三银四跳槽季,拿上攻略有底气!,持续更新大厂面试笔试题

android 程序员 移动开发

Android一线BAT公司面试题你会几道?都解决完就可以进大公司了

android 程序员 移动开发

Android中级面筋:开发2年的程序员如何短期突击面试?跟着这几步去准备

android 程序员 移动开发

Android-源码分析-Dalvik-虚拟机创建过程,android棋牌游戏开发

android 程序员 移动开发

Android-系统开发_四大组件篇----探讨-Activity-的生命周期

android 程序员 移动开发

AndroidJetpack Livedata最详尽的使用场景分析,html5移动端

android 程序员 移动开发

AndroidStudio Gradle第三依赖统一管理,android 工作资料

android 程序员 移动开发

Android-系统开发_四大组件篇----探讨-Activity-的生命周期(1)

android 程序员 移动开发

Android6,阿里P8大佬亲自教你

android 程序员 移动开发

Android—Dagger2-让你爱不释手--重点概念讲解、融合篇

android 程序员 移动开发

Android全面解析之Handler机制:常见问题汇总,kotlin静态类

android 程序员 移动开发

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章