免费下载案例集|20+数字化领先企业人才培养实践经验 了解详情
写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:111839

评论

发布
暂无评论
发现更多内容

Python基础详解(二)

五分钟学大数据

Python 7月月更

一加10 Pro拍照如何?随手一拍都是大片

Geek_8a195c

腾讯大咖分享 | 腾讯Alluxio(DOP)在金融场景的落地与优化实践

Alluxio

腾讯 OLAP 金融 Alluxio 大数据 开源

什么是主动元数据?为什么Gartner预测它是元数据管理的新方向

雨果

元数据 DaaS数据即服务

【直播回顾】OpenHarmony知识赋能六期第三课—OpenHarmony智能家居项目之控制面板功能实现

OpenHarmony开发者

OpenHarmony

活动预告|Apache Doris x Apache SeaTunnel 联合 Meetup 开启报名!

SelectDB

数据库 数据仓库 数据湖 Doris Seatunnel

中国人力资源数字化生态图谱-灵活用工市场

易观分析

人力资源产业

让企业数字化砸锅和IT主管背锅的软件供应链安全风险指北

FinClip

送你的代码上太空,与华为云一起开发"最伟大的作品"

华为云开发者联盟

云计算 代码

福昕软件亮相2022年全国化工企业数智化转型发展论坛

联营汇聚

AI简报-模型集成 SAM 和SWA

AIWeker

深度学习 7月月更

leetcode 605. Can Place Flowers 种花问题 (简单)

okokabcd

数据结构与算法 贪心算法

盘点波卡生态潜力项目 | 跨链特性促进多赛道繁荣

One Block Community

区块链 科技

知乎高赞:数据中台——风起阿里,成于DaaS

雨果

阿里云 DaaS数据即服务

Linux 环境-TiDB组件进程维度的监控实现

TiDB 社区干货传送门

监控

TiKV & TiFlash 加速复杂业务查询

TiDB 社区干货传送门

实践案例

【容器篇】Docker怎么限制资源使用

技术小生

Docker 7月月更

家装工业软件的云挑战

三维家

c++ 云原生 webassembly 云计算, 开源工业软件

想成为精英级开发者?请逼自己养成这10个习惯

雨果

程序员 开发者 精英

西山居如何用 ONES 打造游戏工业流水线?|ONES 行业实践

万事ONES

C# 使用ToolTip控件实现气泡提示

IC00

C# WPF 上位机 7月月更

Spring Cloud之配置管理

Damon

7月月更

「开源摘星计划」Harbor高可用集群设计及部署(实操+视频),基于离线安装方式

腾源会

Harbor 腾源会 开源摘星计划

IM即时通讯如何让企业远程办公更简单高效?

WorkPlus

什么?你还不知道Symbol?

是乃德也是Ned

JavaScript 7月月更

埃森哲22年《技术展望》报告:数字化转型将迎来下一个十年

雨果

数字化转型

昇腾AI创新大赛两大赛道怎么选?拿好这篇攻略就够了!

科技热闻

分布式数据库技术前瞻

TiDB 社区干货传送门

数据库架构选型 数据库架构设计

剧说职场:资深HR告诉你职场强人都有什么特征

雨果

职场

PD-Server GRPC 接口图解

TiDB 社区干货传送门

TiKV 源码解读

基于eTS高效开发HarmonyOS课程类应用

HarmonyOS开发者

HarmonyOS

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章