Apache Spark发布1.3版本，引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API，更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外，新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模，目的是为列表数据提供更好的支持。DataFrame 包含一张表，表中的列是有类型和命名的，可以提供过滤、分组或计算聚集等操作，类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集，或者从 Parquet 格式的文件中加载。到目前为止，RDDS（弹性分布式数据集）是 Spark 中主要的分布式数据采集类型，但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分，机器学习库 Spark MLlib 已经实现了一些新的的学习算法，例如隐含狄利克雷分布，这是一种确定文件主题、聚集相关文件的概率方法；又如多项逻辑递归，用于多类预测任务。MLlib 开始部分支持分布式线性代数，包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的，包括矩阵分解，这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上，Spark 还增加了更高级功能，为数据分析，增加导入和导出学习过的预测模型，还有在1.2 版本引入的管道API ，使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外，Spark 现在已经与 Apache Kafka 直接集成，可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年，源自加州大学伯克利分校的 AMPLab。它可以独立运行，或者安装在现有的 Hadoop 上运行，它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据，因此相对于主要基于磁盘的 MapReduce，它的性能得到了进一步改进。另外，通过收集缓冲区中的数据，然后周期性地处理这些小型的批处理，Spark 具备了处理接近实时的事件数据的能力。在类似的项目中， Apache Flink 不但有类似的功能集合，还包括查询优化和连续数据流处理引擎， Cascading 和 Scalding 项目，提供了一组类似的高级操作，但运行在 MapReduce 处理模型之上。

查看英文原文： Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

创作场景

Apache Spark 发布 1.3 版本，引入 Data Frames、改进 Spark SQL 和 MLlib

评论

人脸识别技术在智慧城市建设中的应用

通过构建背景图学习CSS径向渐变

鲲鹏入晋，乘云而起，华为开发者大会开启“山西时刻”，共话山西鲲鹏生态建设

筑牢三大新型能源基础设施，能源变革的分水岭和路线图

为什么负数的补码等于反码加一

神级外挂 | 网络性能优化，2个补丁就足够

重磅发布 | 博睿数据发布互联网行业精选案例集

人脸识别技术的分类和实现方法

起风了，泛娱乐企业出海如何正确扬帆？

代码随想录训练营 Day02 - 数组（下）

我在中小型项目SuperCell模式实战经验

HTML5 游戏开发实战｜俄罗斯方块

采用Qt+Live555搭建RTSP服务器

保姆级教程：带你体验华为云测试计划CodeArts TestPlan

保险业务连续性保障：从测试到生产，混沌平台建设节奏如何把控？

让沉寂的数据“活”起来，用友BIP资产云提升港口企业决策效率

倒计时1天 | 诚邀见证“九章云极DataCanvas新产品发布会”！

C++实现简单的ls命令以及原理

es 笔记二之基础查询

我为什么选择多边形架构做为工程的基础思想

2023中国（抚远）冷水鱼预制菜高质量发展大会在黑龙江抚远举办

【汽车虚拟仿真】VR技术如何加速自动驾驶进程？

人脸识别技术的未来发展方向

九章云极DataCanvas公司加入中国移动信息现代产业链“十百千万”计划

创作场景

Apache Spark 发布 1.3 版本，引入 Data Frames、改进 Spark SQL 和 MLlib

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载