写点什么

Spark 2.4 重磅发布:优化深度学习框架集成,提供更灵活的流式接收器

  • 2018-11-10
  • 本文字数:2280 字

    阅读完需:约 7 分钟

Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器

Apache Spark 2.4.0 是 2.x 系列中的第五个版本。此版本增加了屏障执行模式,以便更好地与深度学习框架集成;引入 30 多个更高阶的内置函数,能够更轻松地处理复杂数据类型;优化 K8s 集成,同时提供 Scala 2.12 实验性支持。其他主要更新还包括内置 Avro 数据源、图像数据源,更加灵活的流式接收器,取消传输过程中 2GB 块大小的限制,Pandas UDF 改进。此外,此版本继续关注可用性、稳定性,并解决了大约 1100 个 tickets。


Databricks 正式发布 Apache Spark 2.4,作为 Databricks Runtime 5.0 的一部分。



Release Note 详情传送门


Spark 2.4 继续以更快、更简单、更智能为目标,带来了以下新特性:


  • 一种支持屏障模式的调度器,以便与基于 MPI 的程序(比如分布式深度学习框架)更好地集成;

  • 引入一些内置的高阶函数,让处理复杂的数据类型(即数组和 map)变得更容易;

  • 提供对 Scala 2.12 的实验性支持;

  • 允许对 notebook 中的 DataFrame 进行及早求值,便于调试和排除故障;

  • 引入新的 Avro 数据源。


除了这些新特性外,新版本把重点放在可用性、稳定性和优化上,解决了 1000 个问题。由 Spark 贡献者带来的其他特性还包括:


  • 去掉了 2 GB 块大小限制;

  • Pandas UDF 改进;

  • 图像模式数据源;

  • Spark SQL 增强功能;

  • 内置文件源改进;

  • Kubernetes 集成增强。


接下来将简要介绍一些高级别的特性和改进,在未来几天,Databrick 将发布有关这些特性的深度介绍。有关所有 Spark 组件和 JIRA 已解决的主要特性的完整列表,请参阅 Apache Spark 2.4.0发行说明

屏障执行模式

屏障执行模式是Hydrogen的一部分,Hydrogen 是一项 Apache Spark 计划,旨在将最先进的大数据和 AI 技术结合在一起。它可以将来自 AI 框架的分布式训练作业嵌入到 Spark 作业中。他们通常需要探索像 All-Reduce 这种复杂的通信模式,因此需要同时运行所有任务。Spark 当前使用的 MapReduce 模式不满足这样的需求。在这种新的执行模式下,Spark 启动所有训练任务(例如 MPI 任务),并在任务失败时重新启动所有任务。Spark 还为屏障任务引入了一种新的容错机制。在执行过程中如果有任何屏障任务失败,Spark 将中止所有任务并重新启动该执行阶段。

内置高阶函数

在 Spark 2.4 之前,有两种典型的解决方案用于直接操作复杂类型(例如数组类型):一个是将嵌套结构展开为单独的行,应用一些函数,然后再次创建原先的结构,一个是使用用户定义函数(UDF)。新的内置函数可以直接操作复杂类型,可以使用匿名 lambda 函数操作复杂的值,类似于 UDF,但具有更好的性能。


你可以查看一些有关高阶和内置函数的示例

内置 Avro 数据源

Apache Avro 是一种非常流行的数据序列化格式,被广泛用在 Apache Spark 和 Apache Hadoop 生态系统中,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 开始,Spark 为 Avro 数据的读写提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目 Avro Data Source for Apache Spark(从现在开始称为spark-avro)。此外,它还提供了:


  • 新的函数 from_avro()和 to_avro(),用于在 DataFrame 中读写 Avro 数据,而不仅仅是文件;

  • Avro 逻辑类型支持,包括 Decimal、Timestamp 和 Date 类型;

  • 2 倍的读取吞吐量提升和 10%的写入吞吐量改进。

Scala 2.12 实验性支持

从 Spark 2.4 开始,Spark 将支持 Scala 2.12,并使用 Scala 2.11 和 2.12 进行交叉构建,这两个版本都可以在 Maven 存储库和下载页面中找到。现在,用户可以使用 Scala 2.12 来编写 Spark 应用程序。


Scala 2.12 带来了与 Java 8 更好的互操作性,Java 8 提供了更好的 lambda 函数序列化。它还带来了一些用户期待的新特性和错误修复。

Pandas UDF 改进

Pandas UDF 最初是在 Spark 2.3.0 中引入的。在新版本中,根据用户反馈不断改进 Pandas UDF。


除了错误修复之外,Spark 2.4 还带来了 2 个新特性:基于 Pandas UDF 定义窗口函数和聚合函数。这些新特性将进一步改善 Pandas UDF 的使用,并在下一版本中继续改进 Pandas UDF。

图像数据源

社区看到越来越多图像/视频/音频处理方面的使用场景。在 Spark 中为这些场景提供内置数据源简化了用户将数据导入 ML 训练方面的工作。在 Spark 2.3 版本中,图像数据源是通过 ImageSchema.readImages 实现的。Spark 2.4 引入了一个新的 Spark 数据源,可以将目录中的图像文件递归加载为 DataFrame。现在加载图像非常简单:


Kubernetes 集成增强

Spark 2.4 带来了很多与 Kubernetes 集成的增强特性。首先,新版本支持在 Kubernetes 上运行容器化的 PySpark 和 SparkR 应用程序。Spark 为用户提供了 Python 和 R 语言的 Dockerfiles 文件,供用户构建基础镜像或自定义镜像。其次,提供了客户端模式。用户可以在运行在 Kubernetes 集群中 pod 上或集群外的客户端计算机上运行交互式工具(例如 shell 或 notebook)。最后,支持挂载以下类型的 Kubernetes 卷:emptyDir、hostPath 和 persistentVolumeClaim。

灵活的流式接收器

很多外部存储系统已经提供了批次连接器,但并非所有外部存储系统都有流式接收器(sink)。在新版本中,即使存储系统不支持流式接收器,仍然可以通过 streamingDF.writeStream.foreachBatch(…)在每个微批次输出上使用批次数据写入器。例如,你可以在 foreachBatch 中使用现有的 Apache Cassandra 连接器直接将流式查询的输出写入 Cassandra。



同样,你也可以用它将很多流式 DataFrame 不支持的 DataFrame/Dataset 操作应用在每个微批次输出上。例如,foreachBatch 可用于避免在写入多个位置时重新计算流式查询。



英文原文:


https://databricks.com/blog/2018/11/08/introducing-apache-spark-2-4.html


2018-11-10 14:441988
用户头像

发布了 731 篇内容, 共 447.0 次阅读, 收获喜欢 2001 次。

关注

评论

发布
暂无评论
发现更多内容

阿里菜鸟国际Java研发面经(三面+总结):JVM+架构+MySQL+Redis等

三十而立

面试 java

SpringCloud 整合Gateway服务网关

Java你猿哥

spring Spring Cloud Spring Boot ssm

真香!阿里最新出品Java面试核心讲(终极版),Github已星标50K

Java你猿哥

Java 后端 ssm 面经 八股文

为什么项目老夭折?这份项目管理指南请收好

得物技术

技术领导力之路 - 安全感

阿里技术

技术成长

一个基于序列的弱监督视觉信息抽取学习框架

合合技术团队

人工智能 计算机视觉 OCR

浪潮 KaiwuDB x 河工大 | 推进能源行业数字化转型建设

KaiwuDB

解决方案 数字能源 KaiwuDB

电脑风扇控制软件:Macs Fan Control Pro中文激活版

真大的脸盆

Mac Mac 软件 电脑风扇控制 风扇转速控制

聊聊To B企业的客户成功价值

老张

交付 客户成功

SpringBoot快速搭建、自动流程进阶、装配机制、功能扩展点详解

三十而立

Java 程序员 IT

复杂度分析:如何分析、统计算法的执行效率和资源消耗

京东科技开发者

数据结构和算法 算法和数据结构 复杂度分析 空间复杂度 企业号 3 月 PK 榜

面试滴滴、中信字节跳动等10+公司面经+面试题及答案分享(java岗)

三十而立

朴素系统优化思维的实践

京东科技开发者

方案 构架 系统优化

如何防止订单重复支付?

采菊东篱下

Java 编程

如此丝滑的按钮交互效果

南城FE

css3 前端 设计 动画 交互

KaiwuDB 荣获第三届 ISIG 产业智能大会年度最佳技术创新奖

KaiwuDB

技术创新 KaiwuDB AIoT数据库

扩散模型大杀器 ControlNet 解析

Openlab_cosmoplat

人工智能 开源社区 图像

精准测试之分布式调用链底层逻辑

京东科技开发者

分布式 精准测试 调用链 Spark 源码 企业号 3 月 PK 榜

一种异步延迟队列的实现方式

京东科技开发者

架构 软件架构 企业号 3 月 PK 榜 延迟处理

程序员标配Springboot!终于有人把SpringBoot讲的通俗易懂了

三十而立

硬核!阿里出品2023版Java架构师面试指南,涵盖Java所有核心技能

Java你猿哥

Java 架构 后端 面经

喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践

阿里云大数据AI技术

人工智能 深度学习 开源 gpu 企业号 3 月 PK 榜

浅谈堡垒机优化的必要性-行云管家

行云管家

云计算 网络安全 堡垒机 自动化运维

Go 第三方 log 库之 logrus 使用

江湖十年

后端 日志 Go 语言

深扒RocketMQ源码之后,我找出了RocketMQ消息重复消费的7种原因

程序员小毕

程序员 RocketMQ 后端 架构师 消息中间件

OMG!Go语言设计模式,这样用简直不要太爽!

博文视点Broadview

CosineWarmup理论与代码实战

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

内蒙古网络安全等级保护备案办理指引

行云管家

等保测评 等保备案 内蒙古

无处不在的边缘网络感知

阿里云视频云

云计算 边缘云 边缘网络

Spring Boot 如何防护 XSS + SQL 注入攻击 ?终于懂了!

Java你猿哥

sql Spring Boot 后端 ssm XSS

阿里云发布「云盒+无影」云端机顶盒解决方案,打造云边端一体化的机顶盒新模式

云布道师

无影 云盒

Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器_开源_Databricks 博客_InfoQ精选文章