配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)_语言 & 开发_亚马逊云科技 (Amazon Web Services）

我今年早些时候承诺的由 NVIDIA 提供支持的 G4 实例现已推出，现在，您可以在 AWS 的八个区域开始使用六种大小的实例！您可以将其用于机器学习训练和推理、视频转码、游戏流和远程图形工作站应用程序。

这些实例配备多达四个 NVIDIA T4 Tensor Core GPU，每个 GPU 配有 320 个 Turing Tensor 核心、2560 个 CUDA 核心和 16GB 内存。该 T4 GPU 是机器学习推理、计算机视觉、视频处理以及实时语音和自然语言处理的理想选择。该 T4 GPU 还配备 RT 核心，可提供由硬件驱动的高效光线跟踪。NVIDIA Quadro 虚拟工作站 (Quadro vWS) 可在 AWS Marketplace 中获取。该工作站支持实时光线追踪渲染，并可以加快在媒体和娱乐、建筑以及石油和天然气应用中常见的创造性工作流程。

G4 实例构建于 AWS Nitro 系统，由 AWS 定制的第二代 Intel® Xeon® 可扩展处理器 (Cascade Lake) 提供支持，该处理器配有多达 64 个 vCPU。Nitro 本地 NVMe 存储构建数据块可提供对高达 1.8TB 的快速本地 NVMe 存储的直接访问权限。Nitro 网络构建数据块可提供高速 ENA 网络。Intel AVX512-Deep Learning Boost 功能利用一组新的矢量神经网络指令（简写为 VNNI）扩展了 AVX-512。这些指令加速了多种推理算法内循环中的低精度乘法与加法运算。

实例大小如下：

实例名称	NVIDIA T4 Tensor Core GPU	vCPU	RAM	本地存储	EBS 带宽	网络带宽
g4dn.xlarge	1	4	16GiB	1 x 125GB	最高 3.5Gbps	最高 25Gbps
g4dn.2xlarge	1	8	32GiB	1 x 225GB	最高 3.5Gbps	最高 25Gbps
g4dn.4xlarge	1	16	64GiB	1 x 225GB	最高 3.5Gbps	最高 25Gbps
g4dn.8xlarge	1	32	128GiB	1 x 900GB	7Gbps	50Gbps
g4dn.12xlarge	4	48	192GiB	1 x 900GB	7Gbps	50Gbps
g4dn.16xlarge	1	64	256GiB	1 x 900GB	7Gbps	50Gbps

我们还在研究一个裸机实例，该实例将在未来几个月内推出：

实例名称	NVIDIA T4 Tensor Core GPU	vCPU	RAM	本地存储	EBS 带宽	网络带宽
g4dn.metal	8	96	384GiB	2 x 900GB	14Gbps	100Gbps

如果要在 G4 实例上运行显卡工作负载，请确保使用最新版本的 NVIDIA AMI（可在 AWS Marketplace 中获得），以便您可以访问必需的 GRID 和显卡驱动程序，以及包含最新优化和补丁的 NVIDIA Quadro 工作站映像。您可以在以下位置找到所需内容：

NVIDIA 游戏 – Windows Server 2016
NVIDIA 游戏 – Windows Server 2019
NVIDIA 游戏 – Ubuntu 18.04
最新版本的 AWS Deep Learning AMI 支持 G4 实例。开发出该 AMI 的团队对 g3.16xlarge 实例与 g4dn.12xlarge 实例进行了基准测试，并与我共享结果。以下是部分重点内容：
MxNet 推理（resnet50v2，无需使用 MMS 即可进行正向传递）– 速度为 2.03 倍。
MxNet 推理（使用 MMS）– 速度为 1.45 倍。
MxNet 训练（resnet50_v1b，1 个 GPU）– 速度为 2.19 倍。
Tensorflow 推理（resnet50v1.5，正向传递）– 速度为 2.00 倍。
利用 Tensorflow 服务进行 Tensorflow 推理 (resnet50v2) – 速度为 1.72 倍。
Tensorflow 训练 (resnet50_v1.5) – 速度为 2.00 倍。
基准测试使用 FP32 数值精度；如果您使用混合精度 (FP16) 或低精度 (INT8)，则可以期待更大幅度的提升。

现在，您可以在美国东部（弗吉尼亚北部）、美国东部（俄亥俄）、美国西部（俄勒冈）、美国西部（加利福尼亚北部）、欧洲（法兰克福）、欧洲（爱尔兰）、欧洲（伦敦）、亚太地区（首尔）和亚太地区（东京）区域启动 G4 实例。我们还致力于让这些实例可在 Amazon SageMaker 和 Amazon EKS 集群中使用。

本文转载自 AWS 技术博客。

原文链接：

https://amazonaws-china.com/cn/blogs/china/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/

发布

暂无评论

创作场景

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

评论

社交泛娱乐之外，融云 IM 在商业沟通中的实践

软件测试 | 普罗米修斯 - PromQL进阶

你有“ChatGPT综合征”吗：想搞钱，或是失业焦虑？

软件测试/测试开发 | 想测试入门就必须要懂的软件开发流程

美团前端二面常考react面试题及答案

滴滴前端二面常考react面试题（持续更新中）

软件测试 | UI自动化设计军规

百度百舸 · AI 异构计算平台，加速自动驾驶模型迭代

【网易云商】概念解读稳定性保障

低代码如何推动自动化未来

软件测试| 普罗米修斯 - 基本使用

软件测试 | UI自动化常用设计模式（二）

灾备是什么意思？怎么简单理解？

自建MQTT迁移IoT物联网平台实战——实践类

前端一面react面试题指南

经常被问到的react-router实现原理详解

DataEase 集成 CAS 实现用户单点登录

软件测试 | UI自动化常用设计模式

【干货】Maya学习过程中遇到的困难和解决方法

容器化部署是什么意思？有什么优势？

详细解读 React useCallback & useMemo

软件测试 | UI自动化中的分层设计

联合 NVIDIA 完成首批 17 个自动驾驶模型优化

物联网平台企业版：设备接入实例节点开发实战——实践类

深度剖析React懒加载原理

软件测试 | 普罗米修斯 - 初识PromQL

美团前端二面经典react面试题总结

模块7 王者荣耀商城-异地多活架构

EMQ广州Office正式启用｜在新一站续写开源

深度探讨react-hooks实现原理

海泰方圆精彩亮相第六届中国人工智能与大数据海南高峰论坛

创作场景

配有 NVIDIA T4 Tensor Core GPU 的 EC2 实例 (G4)

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载