QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:111909

评论

发布
暂无评论
发现更多内容

基于Web的智慧交通3D可视化系统

2D3D前端可视化开发

智慧交通 智慧交通系统 智能运输系统 ITS 智慧公交

用友iuap:社会级数智化底座,助力企业实现国产替代

用友BIP

国产替代

千亿参数开源大模型 BLOOM 背后的技术

EquatorCoco

开源 数据 bloom

从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

生成式AI下的企业:是不是该成立新部门封新官了?

FinClip

使用 Navicat 的数据生成插入大量测试数据

hungxy

人脸识别技术在智能家居中的应用

来自四九城儿

美团面试真题和答案

王磊

java面试

山西等级保护测评机构有哪些?有几家?

行云管家

信息安全 等级保护 等保测评 等级测评 山西

数智驱动 百业共荣!亚信科技精彩亮相2023 MWC上海展

亚信AntDB数据库

数据库 AntDB AntDB数据库

基于袋鼠云实时开发平台开发 FlinkSQL 任务的实践探索

袋鼠云数栈

sql flink 实时开发

软件测试/测试开发丨Python闭包函数和计时器学习笔记

测试人

Python 程序员 软件测试 函数

传承敬老美德,志愿服务伴我行

科技热闻

5G与妈祖守护的那片海

脑极体

5G

SpringBoot 3.0来了,你准备好了吗? | 社区征文

bug菌

后端 年中技术盘点

开源项目推荐 【SkyEyeSystem】

程序员阿杜

Java 爬虫 springboot

超燃!用友大易走进晨光,探索人才管理创新之道

用友BIP

招聘

国内数据库第一梯队!柏睿数据RapidsDB通过“可信数据库”评测

新消费日报

污点分析是什么神奇的代码检查技术?

华为云PaaS服务小智

云计算 华为云 华为开发者大会2023 代码检查

服务器安全加固 - Linux

高端章鱼哥

Linux 网络安全 运维安全

工业软件芯片国产化:数智化自主可控的重要保障

用友BIP

国产替代

华为云GaussDB圈层活动走进香港,赋能金融政企数字化转型

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

如何理解低代码平台的定制化服务?

互联网工科生

低代码 软件定制

全面数字化业务时代亟需升级企业数智底座

用友BIP

数智底座

软件测试/测试开发丨Pytest配置文件pytest.ini

测试人

Python 程序员 软件测试 测试开发 pytest

[杂谈] 从PDF文件中进行表格抽取(tabula || paddle-pp-structure)

alexgaoyh

paddle 版式还原 表格提取 tabula pp-structure

分享实录 | NGINX 网络协议优化(下)

NGINX开源社区

nginx TCP TLS HTTP

什么是GPU与CPU?有什么不同?哪个更好?

Finovy Cloud

大型企业全面预算管理该何去何从?

用友BIP

全面预算

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章