【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

Apache Spark 1.3 发布,新增 Data Frames API,改进 Spark SQL 和 MLlib

  • 2015-03-24
  • 本文字数:1000 字

    阅读完需:约 3 分钟

Apache Spark 项目刚刚发布了1.3 版本。该版本主要的功能改进包括新增DataFrames API,更加成熟的Spark SQL,机器学习库MLlib 中新增的大量方法以及更好地整合Spark Streaming 与Apache Kafka。

这一版本主要的功能改进之一就是新增的 DataFrames API 。效仿同名的 R 语言数据结构,其目标是为列表数据处理提供更好的支持。每个 DataFrame 包含一个表,该表中包含带有类型和名称的列,此外,DataFrame 还提供与 SQL 中的查询类似的过滤、分组或计算聚合等操作。

DataFrames 与分布式 SQL 查询引擎 Spark SQL 结合紧密。可以通过 SQL 查询结果集或 RDD 构建 DataFrames,也可以从 Parquet 格式的文件中加载 DataFrames。目前来说,Spark 中主流的分布式数据集合类型是 RDD(弹性分布式数据集),不过 DataFrames 旨在为结构化数据提供更好的支持。

作为 Spark 一部分的机器学习库 Spark MLlib 新增了大量的学习算法,如用于识别文档中的主题并根据主题对文档进行聚类的概率统计方法——隐含狄利克雷分布( Latent Dirichlet Allocation ),或用于多级预测任务的多项式逻辑斯蒂回归( multinomial logistic regression )。此外实现了对分布式线性代数的初步支持,其中矩阵块是以分布式的方式存储的。这一功能对更多复杂数据分析的任务来说非常有意义,例如矩阵因子分解由于矩阵过大而经常会出现无法装载到主内存中的情况。

在这些算法之上,Spark 还为数据分析增加了更高级的功能,如导入导出已掌握的预测模型以及在 1.2 版本中引入的以高级方式指定数据传输管道的 Pipeline API 。在数据科学中,这种管道经常用于从原始数据中提取相关特征。

此外,Spark 已经直接与 Apache Kafka 集成,可以接入实时事件数据。

Apache Spark 最初于 2009 年源自 UC Berkeley AMPLab。Spark 可以独立运行,也可以运行在已经安装的 Hadoop 之上,并提供比原始 Hadoop 中的 MapReduce 处理模型更大的操作集合。Spark 会尽可能的将数据保留在内存中,与更加依赖磁盘的 MapReduce 相比,在性能上有进一步的提升。另外,通过将数据采集到缓存中然后定期小批量地进行处理,Spark 可以接近实时地完成事件数据处理。与 Spark 类似的项目还有包含类似功能集合及查询优化和持续流数据处理引擎的 Apache Flink ,以及运行于 MapReduce 处理模型之上,并提供类似的高级操作集合的 Cascading Scalding

查看英文原文: Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

2015-03-24 05:181926
用户头像

发布了 75 篇内容, 共 61.8 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

【盲盒APP】开发功能版块及功能介绍

WDL22119

使用 TensorFlow 和 Express.js 实现AI图像识别

devpoint

tensorflow Express 6月月更

Squarespace 和 WordPress 的区别

海拥(haiyong.site)

WordPress 6月月更

《WebRTC源码深入剖析》总结

音视频专家-李超

源码分析 音视频 WebRTC 源码剖析

数据库每日一题---第3天:大的国家

知心宝贝

数据库 算法 前端 后端 6月月更

学生管理系统架构文档

爱晒太阳的大白

Fabric.js 居中元素 🎗️

德育处主任

fabric canvas FabricJS Fabric.js 6月月更

Kubernetes社区发行版:开源容器云OpenShift Origin(OKD)认知

山河已无恙

k8s openshift

C#入门系列(五) -- 运算符

陈言必行

C# 6月月更

关于 SAP Commerce Cloud 的 Sample Setup Github 仓库

Jerry Wang

typescript angular SAP commerce 6月月更

模块3作业(外包学生管理系统架构文档)

Geek_701557

Linux驱动开发_数码相册项目、360WIFI驱动移植介绍

DS小龙哥

6月月更

Flink 通过 State Processor API 实现状态的读取和写入

JasonLee实时计算

flink

700行无用 纯 CSS 祝考生 金榜高粽《1_bit 的无用 CSS 代码 》

1_bit

CSS html 前端

支付系统安全设计思维导图

靠谱的程序员

支付安全

【LeetCode】数组中第 K 个独一无二的字符串Java题解

Albert

LeetCode 6月月更

Web Service进阶(三)HTTP-GET, HTTP-POST and SOAP的比较

No Silver Bullet

soap 6月月更 Web Service HTTP-GET HTTP-POST

区块链mass哈希競猜dapp游戏开发源代码(多游戏)

开发微hkkf5566

等你加入|建木开源社区团队成员招募

Jianmu

开源社区 自动化运维 社区运营 志愿者招募

Web Service进阶(一)运行原理

No Silver Bullet

6月月更 Web Service 运行原理

以购物清单为例讲述 Redux 的状态如何在 Flutter 多个组件间共享

岛上码农

flutter 安卓开发 ios 开发 跨平台应用 6月月更

【Spring 学习笔记(四)】Spring Bean 集合注入和自动装配

倔强的牛角

spring Java EE 6月月更

LabVIEW控制Arduino采集多路模拟量、数字量(进阶篇—1)

不脱发的程序猿

单片机 LabVIEW VISA Arduino Uno 采集多路模拟量、数字量

Flink on yarn 远程调试源码

JasonLee实时计算

flink

抖音大举进军电商领域:这步棋应该如何下

石头IT视角

【腾讯云代码分析】五月上新+新功能前瞻

腾源会

JavaScript迭代器

大熊G

JavaScript 前端 6月月更

Sentinel与OpenFeign 服务熔断那些事

牧小农

sentinel openfeign

java构造器(构造方法、构造函数)

写代码两年半

面试 javase 构造函数 6月月更

Python环境搭建

攻城狮Wayne

Python编程 6月月更 Python环境

外包学生管理系统

极客土豆

Apache Spark 1.3发布,新增Data Frames API,改进Spark SQL和MLlib_DevOps & 平台工程_Mikio Braun_InfoQ精选文章