写点什么

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime

2020 年 3 月 04 日

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime

Amazon EMR宣布推出了适用于 Apache Spark 的 Amazon EMR Runtime,这是一种针对 Apache Spark 进行了性能优化的环境,此 runtime 在 Amazon EMR 集群上默认处于活动状态。适用于 Spark 的 EMR runtime 速度最快可达 EMR 5.16 的 32 倍,并且与开源 Spark API 实现了 100% 的兼容性。这使得工作负载运行速度更快,无需对应用程序进行任何更改即可节省计算成本。自


EMR 5.24 起,Amazon EMR 不断改进 Spark runtime,


优化 Spark 性能一文介绍了这些改进。EMR 5.28 推出了多项新的改进。为了量化这些改进,我们将 EMR 5.16(采用开源 Apache Spark 版本 2.4)与 EMR 5.28(采用与 Apache Spark 版本 2.4 兼容、适用于 Apache Spark 的 EMR runtime)进行了对比。我们使用了 3TB 级的 TPC-DS 基准查询,运行在一个 6 节点的 c4.8xlarge EMR 集群上,数据存储在


Amazon S3 中。衡量性能提升的指标包括:查询执行总时间提升的几何平均值以及所有查询的查询执行总时间。结果表明,性能明显提升 – 几何平均值提高了 2.4 倍,总体查询运行速度提高了 3.2 倍。


下图展示了 104 TPC-DS 查询(注 1)总运行时间的性能提升情况。EMR 5.28 的运行时间更短(更好)。



下图展示了 104 TPC-DS 查询几何平均值的性能提升情况。EMR 5.28 的几何平均值更低(更好)。



单独研究每次查询的提升情况时发现,长时间运行的查询性能提升最明显。


下图展示了与 EMR 5.16 相比,EMR 5.28 中长时间运行的查询的性能提升情况(在 EMR 5.16 中运行时间超过 130 秒的查询)。在此对比结果中,数值越高表示性能越好。



下图展示了与 EMR 5.16 相比,EMR 5.28 中短时间运行的查询的性能提升情况(在 EMR 5.16 中运行时间少于 130 秒的查询)。同样,数值越高表示性能越好。



如查询 72 所示,对于运行时间超过 130 秒的查询,其速度最多可提高 32 倍。对于运行时间少于 130 秒的查询,其速度最多可提高 6 倍,平均提高了 2 倍。


Spark 有着广泛的分析使用案例,包括从大规模转换到流式处理、数据科学以及机器学习等。客户选择在 EMR 上运行 Spark,是因为 EMR 提供了稳定的最新开源社区创新、Amazon S3 高性能存储、以及由 Spot 实例 Auto Scaling 功能带来的成本节约。EMR 还通过托管式 EMR Notebooks笔记本范围的库Git 集成实现了易用性,并支持通过集群外 Spark History Services 轻松进行调试和监控。结合 runtime 性能提升和使用 AWS Lake Formation 带来的精细访问控制,Amazon EMR 成为了运行 Apache Spark 的客户的绝佳选择。


借助对 Apache Spark 的各项性能优化,您能够从更好的查询性能中获益。我们将继续推出更新,不断改进 Amazon EMR 上的 Apache Spark 性能,敬请关注。要随时掌握最新动态,请订阅大数据博客的 RSS 源,了解更多 Apache Spark 优化、配置最佳实践和调整建议方面的信息。


注 1:


TPC-DS 是一个面向决策支持系统(decision support system)的包含多维度常规应用模型的决策支持基准,包括查询(queries)与数据维护,TPC-DS 采用星型、雪花型等多维数据模式。它包含 7 张事实表,17 张纬度表平均每张表含有 18 列。其工作负载包含 99 个 SQL 查询,覆盖 SQL99 和 2003 的核心部分以及 OLAP。


更多信息请参考:http://www.tpc.org/tpc_documents_current_versions/pdf/tpc-ds_v2.1.0.pdf


作者介绍:


Joseph Marques 是 Amazon Web Services 负责 EMR 的首席工程师。


Peter Gvozdjak 是 Amazon Web Services 负责 EMR 的高级工程经理。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-emr-introduces-emr-runtime-for-apache-spark/


2020 年 3 月 04 日 20:51133

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

手把手教你写!2021年Android工作或更难找,最全的BAT大厂面试题整理

欢喜学安卓

android 程序员 面试 移动开发

冰河又一MySQL力作出版(文末送书)!!

冰河

MySQL 高可用 高并发 高性能 MySQL架构

架构师训练营 1 期第 9 周:性能优化(三)

灵霄

极客大学架构师训练营

【Java并发编程】面试必备之线程池

java金融

线程池

架构师训练营 1 期第 12 周:数据应用(一) - 作业

灵霄

极客大学架构师训练营

JAVA并发编程原理与实战

Geek_53983e

原理 java 并发 实战

甲方日常 76

句子

工作 随笔杂谈 日常

突破2.8万美元关口,比特币为何“疯涨”? ​

CECBC区块链专委会

比特币 比特币数字货币

工具词典:Inner Peace

lidaobing

随机漫步的傻瓜 28天写作

面试官:Android事件分发机制及设计思路,跳槽薪资翻倍

欢喜学安卓

android 程序员 面试 移动开发

扫地阿姨看完都学会了!万字长文总结Android多进程,满满干货指导

欢喜学安卓

android 程序员 面试 移动开发

架构师训练营 1 期第 10 周:模块分解 - 作业

灵霄

极客大学架构师训练营

重磅盘点!2020年区块链行业十件大事

CECBC区块链专委会

区块链

面试官:我问的是Java内存模型,你回答堆栈方法区干嘛?

Java鱼仔

Java 程序员 JMM 多线程 并发

架构师训练营 1 期第 8 周:性能优化(二)- 作业

灵霄

极客大学架构师训练营

【Java并发编程】阿里最喜欢问的几道线程池的面试题?

java金融

Java 面试题 线程池

架构师训练营第五周”技术选型一“作业

随秋

极客大学架构师训练营

自研ARM芯片,亲手拆掉Wintel联盟,微软这次是认真的吗?

脑极体

重学JS | 找出数组中出现次数最多元素的4种算法

梁龙先森

前端 编程语言

架构师训练营第五周”技术选型一“总结

随秋

极客大学架构师训练营

架构大作业二

Geek_michael

极客大学架构师训练营

专家:区块链底层技术创新是关键

CECBC区块链专委会

区块链

如何给团队制定合理的季度绩效?

Alan

团队管理 绩效 七日更 28天写作

架构师训练营 1 期第 11 周:安全稳定 - 作业

灵霄

极客大学架构师训练营

架构师训练营 - 大作业1

阿甘

与前端训练营的日子 --Week09

SamGo

学习

重学JS | 数组去重的7种算法

梁龙先森

前端 编程语言

像用户一样测试:不妨犯傻

QualityFocus

软件测试 体验 可用性 用户体验

LeetCode题解:剑指 Offer 40. 最小的k个数,快速排序,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

架构师训练营 - 大作业 2

阿甘

为移动应用产业开辟出海新航路,华为应用市场是如何“破冰”的?

脑极体

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

Amazon EMR 推出适用于 Apache Spark 的 EMR Runtime-InfoQ