写点什么

Spark 从 Apache 孵化器正式毕业

  • 2014-03-11
  • 本文字数:889 字

    阅读完需:约 3 分钟

近日,Spark 从 Apache 孵化器毕业。Spark 声称,与Apache Hadoop 相比,它在内存数据集上的性能提升了高达100 倍,而在磁盘数据集上的性能则正常回落到10 倍。自2010 年开源以来,Spark 一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL 语言,它可以将自身的 DSL SQL 相结合。Spark 的基本 API 是一种 Scala DSL,围绕名为弹性分布式数据集( RDD )的分布式项集合构建。利用分布式执行,RDD 可以支持批量和聚集操作,如筛选、映射和 reduceByKey。Spark 可以使用 Hive SQL 提供具有同等执行速度的原生 Scala API。重用 Hive 的前端和后端意味着它可以与 Hive 一起使用,共享数据、查询和 UDFs。

Spark 使用 MLib 提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib 只是 MLBase 的一个组件。 MLBase 是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和 ML 研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML 最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout 类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用 GraphX 实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX 提供了可以与 Apache Giraph 相媲美甚或更好的性能,而Apache Giraph 则是 Facebook 使用的著名的图处理系统。

SparkR 向 R 暴露了 Spark API,允许统计人员从 R 函数直接向 Apache Spark 集群提交作业。除了 RDBMS 之外,R 是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR 解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark 可以部署在Apache YARN 上,易于与异构系统集成和共存。它还是由 Cloudera Databricks 支持的 Cloudera 企业数据中心版的一部分,其中 Databricks 是 Spark 商业化的推动者。最后, Streaming 可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从 GitHub 上获取 Spark 的代码。

查看英文原文:**** Spark Officially Graduates From Apache Incubator

2014-03-11 05:483926
用户头像

发布了 256 篇内容, 共 89.0 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

用DevEco Studio模拟器这些能力 没真机也能高效调测鸿蒙原生应用

HarmonyOS开发者

AI智能体在自动化测试中的应用

测试人

如何让敏捷落地?谈谈敏捷工具在团队中的应用实践

爱吃鱼的小雨

敏捷开发 敏捷项目管理 敏捷工具 scrum工具 敏捷研发工具

智能网联汽车的数据脱敏

芯盾时代

车联网 物联网 数据安全 智能汽车

音乐 NFT 系统的智能合约开发

北京木奇移动技术有限公司

智能合约 软件外包公司 音乐NFT

音视频编解码开发的技术难点

北京木奇移动技术有限公司

音视频开发 音视频引擎 软件外包公司

PIRF 421:Measurements – Embracing the Imperial System

Echo!!!

English

Easysearch Rollup 使用指南

极限实验室

Rollup Performance easysearch

深入了解淘宝天猫API接口:商品详情与关键词搜索商品列表的实用指南

代码忍者

淘宝API接口

HBase深度历险

京东科技开发者

Kyutai开源端侧模型Helium -1 preview;FoloToy内测「超级智能体」,支持联网查询和语音调整音量语速

声网

如何在 Windows 上安装 Python 环境的详细指南

克莱因瓶

从0到1:基于SSM的陪诊小程序开发笔记(一)

CC同学

【GreatSQL优化器-11】finalize_table_conditions

GreatSQL

记录一次RPC服务有损上线的分析过程

京东科技开发者

工作流程图怎么制作?10个流程图模板案例盘点!

职场工具箱

流程图 画图软件 绘图 在线白板 流程图绘制工具

音视频编解码的性能优化

北京木奇移动技术有限公司

软件外包公司 音视频编码 音视频解码

2025-01-15:执行操作可获得的最大总奖励 Ⅰ。用go语言,给定一个整数数组 rewardValues,其中包含 n 个代表奖励值的数字。 你开始时的总奖励 x 为 0,并且所有下标都是未标记状

福大大架构师每日一题

福大大架构师每日一题

图片秒变短视频!阿里妈妈“淘宝星辰·图生视频”向商家开放使用

新消费日报

火山引擎上线鸿蒙原生智能美化解决方案 轻松提升图形视频美化体验

HarmonyOS开发者

火山引擎

SimCorp最新买方调查显示,人工智能必须更好地融入投资流程

财见

地平线Vision Mamba:超越ViT,最具潜力的下一代通用视觉主干网络

地平线开发者

自动驾驶 算法 地平线征程6

加入我们|申请成为亚马逊云科技 Community Builder,共建云端社区!

亚马逊云科技 (Amazon Web Services)

《CPython Internals》阅读笔记:p151-p151

codists

CPython Internals

音乐NFT系统开发的技术难点

北京木奇移动技术有限公司

区块链技术 软件外包公司 音乐NFT

MIAOYUN荣获“新质榜样·2024信创力量最佳技术解决方案奖”

MIAOYUN

云计算 云原生 解决方案 信创 超融合

深度解析:低代码技术如何为新型工业化提供关键赋能支撑

快乐非自愿限量之名

反向 Debug 了解一下?揭秘 Java DEBUG 的基本原理

京东科技开发者

普通人如何赶上AI大模型浪潮

老张

人工智能 AI 自由职业 第二曲线 大模型

面向法律场景的大模型RAG检索增强解决方案

阿里云大数据AI技术

人工智能 阿里云 LLM rag PAI

基于Springboot: 宠物小程序开发笔记(上)

CC同学

Spark从Apache孵化器正式毕业_开源_Alex Giamas_InfoQ精选文章