写点什么

Apache Spark 发布 1.3 版本,引入 Data Frames、改进 Spark SQL 和 MLlib

  • 2015-03-31
  • 本文字数:1053 字

    阅读完需:约 3 分钟

Apache Spark 项目发布了 1.3 版本。主要改进是增加了 DataFrames API,更成熟的 Spark SQL 以及一些添加到机器学习库 MLlib 的新方法。此外,新版本可以更好地将 Spark Streaming 与 Apache Kafka 整合。

DataFrames API 是新版本最主要的新增功能。采用 R 语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame 包含一张表,表中的列是有类型和命名的,可以提供过滤、分组或计算聚集等操作,类似 SQL 查询。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 紧密集成。 DataFrames 可以构建自 SQL 查询结果集、弹性分布式数据集,或者从 Parquet 格式的文件中加载。到目前为止,RDDS(弹性分布式数据集)是 Spark 中主要的分布式数据采集类型,但 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 的一部分,机器学习库 Spark MLlib 已经实现了一些新的的学习算法,例如隐含狄利克雷分布,这是一种确定文件主题、聚集相关文件的概率方法;又如多项逻辑递归,用于多类预测任务。MLlib 开始部分支持分布式线性代数,包括以分布式方式存储矩阵块。这样的功能是许多较复杂的数据分析任务所必需的,包括矩阵分解,这往往涉及矩阵过大难以载入主存储器的问题。

在这些算法之上,Spark 还增加了更高级功能,为数据分析,增加导入和导出学习过的预测模型,还有在1.2 版本引入的管道API ,使用户以高级的方式指定数据转换管道。这种管道通常用于提取数据科学领域的原始数据相关的特征。

此外,Spark 现在已经与 Apache Kafka 直接集成,可以摄取实时事件数据。

Apache Spark 最初开始于 2009 年,源自加州大学伯克利分校的 AMPLab。它可以独立运行,或者安装在现有的 Hadoop 上运行,它还提供了比 Hadoop 原生的 MapReduce 处理模型更大的操作集合。它尽可能使用内存持有数据,因此相对于主要基于磁盘的 MapReduce,它的性能得到了进一步改进。另外,通过收集缓冲区中的数据,然后周期性地处理这些小型的批处理,Spark 具备了处理接近实时的事件数据的能力。在类似的项目中, Apache Flink 不但有类似的功能集合,还包括查询优化和连续数据流处理引擎, Cascading Scalding 项目,提供了一组类似的高级操作,但运行在 MapReduce 处理模型之上。

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements


感谢丁晓昀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流。

2015-03-31 00:111873

评论

发布
暂无评论
发现更多内容

ERP对接MES的3种类型的接口

万界星空科技

低代码 MES系统 系统集成 万界星空科技 系统对接

移动应用崛起新契机—超级app+轻应用!

Geek_2305a8

得物云原生容器技术探索与落地实践

得物技术

云原生 技术分享

IntelliJ IDEA安装教程

小魏写代码

数据展现之道:精心打造可在线浏览的动态数据报表

EquatorCoco

数据库 动态数据

即时通讯技术文集(第32期):IM开发综合技术合集(Part5) [共12篇]

JackJiang

网络编程 即时通讯 IM

每日一题:LeetCode-209. 长度最小的子数组

Geek_4z9ami

算法 LeetCode 二分查找 前缀和 滑动窗口

基于企业级SaaS低代码平台的协同制造产品解决方案

万界星空科技

低代码 MES系统 低代码开发 万界星空科技 低代码云MES

鸿蒙HarmonyOS实战-ArkTS语言(基本语法)

不在线第一只蜗牛

HarmonyOS 鸿蒙开发 HarmonyOS框架

测试管理的核心知识点:岗位与职责全面解析

测吧(北京)科技有限公司

测试

Meta Llama大模型:引领人工智能创新

百度开发者中心

人工智能 深度学习 大模型

Code Llama:基于 Llama 2 的 AI 代码生成大模型

百度开发者中心

人工智能 大模型 代码生成

如何写好大模型提示词?来自大赛冠军的经验分享(基础篇)

Baihai IDP

人工智能 AI LLM Prompt Prompt Engineering

重磅!参编我国首个图计算平台标准 引领图数据库行业新机遇

百度安全

使用API接口获取拼多多商品详情

Noah

大白话—70个你必须知道的AI重要概念(二)

Geek_2305a8

深入了解LLaMA大模型

百度开发者中心

深度学习 nlp 大模型

如何提升时序数据多表低频场景的写入性能?一文详解

TDengine

tdengine 时序数据库

类似 Microsoft Project 的12款在线项目管理工具

爱吃小舅的鱼

项目管理 项目经理 项目管理工具

【第七在线】服装企业对于智能商品计划系统的误区有哪些?

第七在线

为什么要将应用微服务化?

伤感汤姆布利柏

程序员 微服务 低代码 架构师 JNPF

Video-LLaMA:为AI大模型注入视听觉

百度开发者中心

人工智能 大模型

大白话—70个你必须知道的AI重要概念(三)

Geek_2305a8

如何在苹果手机上进行文件管理

使用 Taro 开发鸿蒙原生应用 —— 快速上手,鸿蒙应用开发指南

京东科技开发者

千万级数据深分页查询SQL性能优化实践

京东科技开发者

MES生产执行系统在生产车间的主要作用

万界星空科技

工业互联网 MES系统 生产管理系统 mes 数字化车间

操作系统寒武纪 :鸿蒙来了企业IT高兴吗?

FN0

鸿蒙 操作系统 HarmonyOS

Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章