写点什么

适用于紧密耦合的 HPC 工作负载的 Elastic Fabric Adapter (EFA)

  • 2019-10-01
  • 本文字数:2103 字

    阅读完需:约 7 分钟

适用于紧密耦合的 HPC 工作负载的 Elastic Fabric Adapter (EFA)

在 re:Invent 2018 上,我们发布了 Elastic Fabric Adapter (EFA) 并在当时以预览版形式推出。预览期间,AWS 客户在各种紧密耦合的 HPC 工作负载上对 EFA 进行了测试,为我们提供了有价值的反馈并帮助我们对最终产品进行了优化。

现已推出

今天我很高兴地宣布,EFA 现已准备好在多个 AWS 区域进行生产使用。它可以支持那些要求具有比传统 TCP 通信更低、更一致的网络延迟以及更高吞吐量的严苛型 HPC 工作负载。通过此次发布,您可以将 AWS 云的规模、灵活性和弹性应用于紧密耦合的 HPC 应用程序,而我也迫不及待地想要了解您使用它做了什么。例如,您可以扩展到数千个计算节点,而无需提前预留硬件或网络。


关于 EFA


Elastic Fabric Adapter 是一个具有更多功能的 AWS Elastic Network Adapter (ENA)(阅读我的文章 Elastic Network Adapter – Amazon EC2 的高性能网络接口,了解有关 ENA 的更多信息)。EFA 仍然可以处理 IP 流量,但也支持通常称为 OS 旁路的重要访问模型。使用此模型,应用程序(最常见的是通过一些用户空间中间件)可以访问网络接口,而无需让操作系统参与每条消息。这样做可以减少开销并使应用程序更有效地运行。其具体情况如此处所示(来源):



这块蛋糕的 MPI 实施和 libfabric 层起着至关重要的作用:


MPI – 作为“消息传递接口”的缩写,MPI 是一种历史悠久、旨在支持并行编程的通信协议。利用它所提供的功能,在一组紧密耦合的计算机上运行的进程可以采用与语言无关的方式进行通信。


libfabric – 此库适用于几种不同类型的网络结构提供程序(包括 EFA)和 MPI 等更高级别的库。EFA 支持标准 RDM(可靠数据报)和 DGRM(不可靠数据报)终端节点类型;要了解更多信息,请查看 libfabric 程序员手册。EFA 还支持我们称之为 Scalable Reliable Datagram 的新协议;该协议旨在在 AWS 网络中工作,并在我们的 Nitro 芯片中实施。


通过协同工作,这两个层(以及可以代替 MPI 插入的其他层)允许您将现有 HPC 代码带到 AWS 并在几乎不做任何更改的情况下运行它。


您今天可以在所有 AWS 区域的 c5n.18xlarge 和 p3dn.24xlarge 实例(只要这些实例可用)上使用 EFA。这些实例可以使用 EFA 在 VPC 子网内进行通信,而安全组必须具有允许安全组内的所有流量流动的入口和出口规则。每个实例都可以有一个 EFA,它可以在启动实例或停止实例时进行挂载。


您还需要以下软件组件:


EFA 内核模块 – EFA 驱动程序位于 Amazon GitHub 存储库以及 Amazon Linux 和 Amazon Linux 2 AMI 中。我们正在将其添加到其他 Linux 发行版的 AMI 中。


Libfabric 网络堆栈 – 您现在需要使用 AWS 自定义版本(在 Amazon Linux 和 Amazon Linux 2 AMI 中已存在)。我们正在将我们的更改纳入 libfabric 的下一版本 (1.8) 中。


MPI 或 NCCL 实施 – 您可以使用 Open MPI 3.1.3(或更高版本)或 NCCL(2.3.8 或更高版本)以及适用于 NCCL 的 OFI 驱动程序。我们还打算支持 Intel MPI 库。


您可以使用 CLI、API 或 EC2 控制台以及将在几周内推出的 CloudFormation 支持启动实例并挂载 EFA。如果您使用 CLI,则需要包含子网 ID 并要求提供 EFA,如下所示(确保包含相应的安全组):


$ aws ec2 run-instances ... \  --network-interfaces DeleteOnTermination=true,DeviceIndex=0,SubnetId=SUBNET,InterfaceType=efa
复制代码


实例启动之后,请运行 lspci | grep efa0 以验证 EFA 设备是否已挂载。您可以(但并非必须)在集群置放群组中启动实例,以便在每个轻脚都很重要的情况下从物理邻接中受益。在以这种方式使用时,EFA 可以提供 15.5 微秒的单向 MPI 延迟。


您也可以创建一个启动模板,然后使用它以按需或 Spot 形式启动 EC2 实例(直接或作为 EC2 Auto Scaling 组的一部分)、启动 Spot 队列,以及在 AWS Batch 上运行计算作业。


了解更多


要了解有关 EFA 的更多信息,并查看其他一些基准测试,请务必观看此 re:Invent 视频:(在具有 Elastic Fabric Adapter 的 EC2 上扩展 HPC 应用程序):



AWS 客户 CFD Direct 维护适用于计算流体动力学 (CFD) 的热门 OpenFOAM 平台,并且还生产 CFD Direct From the Cloud (CFDDC),后者是一款让您可以轻松地在 AWS 上运行 OpenFOAM 的 AWS Marketplace 产品。他们一直在对 EFA 进行测试和基准测试,并在最近一篇标题为采用 AWS EFA 的 OpenFOAM HPC 的博文中分享了他们的测量结果。在文章中,他们报告了一对模拟:


汽车周围的外部空气动力学 – 这个模拟超线性扩展到 200 多个内核,逐渐下降到 1000 个内核的线性扩展(每个内核大约 10 万个模拟单元)。


在具有水跃的堰上流动 – 根据“数据写入”设置,这个模拟(1000 个核心和 1 亿个单元)的比例在 67% 和 72.6% 之间。


阅读完整文章,了解更多信息并查看一些图表和可视化。

工作过程

我们计划以后为其他 EC2 实例类型添加 EFA 支持。一般情况下,我们计划为任何给定类型的两个最大尺寸为“n”的实例以及裸机实例提供 EFA 支持。


作者介绍:


Jeff Barr


AWS 首席布道师; 2004 年开始发布博客,此后便笔耕不辍。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/now-available-elastic-fabric-adapter-efa-for-tightly-coupled-hpc-workloads/


2019-10-01 18:16986
用户头像

发布了 1852 篇内容, 共 119.5 次阅读, 收获喜欢 78 次。

关注

评论

发布
暂无评论
发现更多内容

首批最高级!华为云ROMA Connect获信通院全栈企业级集成平台优秀级

平平无奇爱好科技

新能源领军企业的选择:XSKY 易数管理平台实现质检效率飞跃

XSKY星辰天合

案例 | 澳鹏自动驾驶标注方案入选虎嗅智库行业报告

澳鹏Appen

自动驾驶 数据标注 行业报告

Kafka+PostgreSql,构建一个总线服务

为自己带盐

postgresql kafka 总线服务

AI最佳实践全栈式从0到1开发个人博客系统

豆包MarsCode

人工智能 程序员 AI 博客 博客开发

还在粗放式管理需求,频繁返工?华为云六招破解研发困局!

平平无奇爱好科技

数字OA——低代码开发平台范赋能企业设计与探索

快乐非自愿限量之名

低代码 数字化 OA

说说停止线程池的执行流程?

伤感汤姆布利柏

华为云CodeArts API:API管理一体化平台 7月新特性上线啦!

平平无奇爱好科技

新特性系列 I 华为云软件开发生产线(CodeArts)8月上线新功能等你来解锁!

平平无奇爱好科技

mcgs笔记 工具箱 构件展示

万里无云万里天

自动化 HMI mcgs

【技术分享】Amazon EKS-不同的服务根据路径实现ALB的跳转

伊克罗德信息科技

Amazon amazoneks

“码”上中秋,共话精彩——豆包MarsCode 放“码”过来!

豆包MarsCode

人工智能 AI 征文活动

华为云空间亮相网络安全周:创新技术保障数据与设备安全

最新动态

mcgs笔记 工具箱 元件库(公共图库)展示(上)

万里无云万里天

自动化 HMI mcgs

西部数据正式推出获PS5™官方授权的8TB超大容量SSD

Geek_2d6073

不可重复读和幻读有什么区别

高端章鱼哥

mcgs笔记 工具箱 元件库(公共图库)展示(中)

万里无云万里天

自动化 HMI mcgs

云南省第一人民医院:PACS 影像存储的信创之路

XSKY星辰天合

内容审核:中国GPT医生面临困境,怎么保障信息的“安全流通”?

爱AI的猫猫头

人工智能 网络安全 数据安全 内容审核 大模型

Python 集成快递物流 API 助力订单追踪:轻松实现物流可视化

幂简集成

Python API 物流

华为云低代码AstroZero技巧教学1:表格的超链接赋能

平平无奇爱好科技

华为云低代码AstroZero技巧教学2:轮播组件的魅力 玩转视觉营销

平平无奇爱好科技

将美术馆装进手机,艺术融入生活。《Arrrt》入选华为应用市场“匠心奖”

最新动态

网络安全宣传周 | DNS安全威胁与应对措施分享

国科云

XEOS 与 JuiceFS 完成联合认证,携手共建大模型私有化存储方案

XSKY星辰天合

技术揭秘 DWS 实时数仓解决方案,如何深度融合 Flink 简化数据链路

华为云开发者联盟

数据库 数据仓库

百度赵世奇:文心智能体平台跑通商业闭环,已有超2万智能体开始帮开发者赚钱

Geek_2d6073

新特性系列 I 华为云全栈可观测平台(APM)8月上线新功能等你来解锁!

平平无奇爱好科技

开发者空间实践指导:基于3大PaaS主流服务轻松实现文字转换语音

平平无奇爱好科技

mcgs笔记 工具箱 常用符号展示

万里无云万里天

自动化 HMI mcgs

适用于紧密耦合的 HPC 工作负载的 Elastic Fabric Adapter (EFA)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章