HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:111847

评论

发布
暂无评论
发现更多内容

自助洗车机还能加盟你不知道吧?

共享电单车厂家

自助洗车机 自助洗车加盟

使用Sonar来优化您的基础架构代码

龙智—DevSecOps解决方案

漏洞 SonarQube

换个角度带你学C语言的基本数据类型

华为云开发者联盟

开发 C语言 数据类型位数

看完这篇异地多活的改造,我决定和架构师battle一下 / 得物技术

得物技术

架构 容灾 双活 双活容灾 异地多活

将不费吹灰之力成为卷王的秘籍传授于你!

龙智—DevSecOps解决方案

Jira插件 龙智自研插件 Jira飞书插件

八大误区,逐个击破:担忧安全防护与合规性?这可能是您对云最大的误解

龙智—DevSecOps解决方案

Atlassian atlassian云版 Atlassian白皮书

字节跳动一站式数据治理解决方案及平台架构

字节跳动数据平台

数据治理 元数据

24小时无人自助洗车要如何加盟?

共享电单车厂家

自助洗车加盟

OpenHarmony 3.1 Release版本关键特性解析——OpenHarmony新音视频引擎——HiStreamer

OpenHarmony开发者

Open Harmony

InfoQ 极客传媒 15 周年庆!无限生长未来可期!

InfoQ写作社区官方

热门活动 InfoQ极客传媒15周年庆

应用实践|Lifewit 数据平台基于Apache Doris的建设实践

SelectDB

数据库 数据仓库 apache doris SelectDB

对话ACE第三期:数据库技术生态应如何构建

OceanBase 数据库

oceanbase

为什么PO的角色在Scrum框架中不可替代

ShineScrum捷行

Scrum 产品经理 PO 产品负责人

C#入门系列(一) -- 初识C#语言

陈言必行

C# 6月月更

从冬奥跳台飞跃向千家万户:联通“臻宽带”的起跳瞬间

脑极体

字节跳动数据库的过去、现状与未来

火山引擎开发者社区

数据库 微服务 分布式数据库

关键点标注的酷炫,你想象不到

澳鹏Appen

人工智能 数据标注 数据训练 关键点检测 关键点

雅加达利用SAS优化抗疫救助资金发放,帮助中小微企业度过难关

E科讯

了解es6语法简介

小恺

6月月更

MSVC编译动态库

Loken

音视频 5月月更

特别的儿童节,OceanBase 送上一份特别的惊喜

OceanBase 数据库

oceanbase

儿童节,和 AI 一起通关 “超级马里奥兄弟”

华为云开发者联盟

MixNet解析以及pytorch源码

AI浩

人工智能 6月月更

6元自助洗车机一般都什么价位

共享电单车厂家

自助洗车加盟 6元自助洗车机

孩子上网冲浪更安全,这份儿童节礼物值得拥有

最新动态

将虚幻引擎5与Perforce Helix Core集成使用吧!

龙智—DevSecOps解决方案

perforce 虚幻引擎5 Helix Core

那些年,我们在Apache SeaTunnel 2.1.0部署中踩过的坑【含源码分析】

Apache SeaTunnel

Apache 大数据 开源 workflow Seatunnel

有了这个云端Mock功能,你的简历起码提升30分!

Liam

前端 Postman 前端教程 API文档 前端工具

DataPipeline:让数据生产力的历史进程,再前进一步

DataPipeline数见科技

DataOps 数据管理

常遇到读多写少,教你用ReadWriteLock实现一个通用的缓存中心

华为云开发者联盟

缓存 高并发 开发 ReadWriteLock

深入剖析 | HeartBeat方案的标准设计

九叔(高翔龙)

架构 dubbo 源码解析 HeartBeat 心跳设计

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章