写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

  • 2019-12-11
  • 本文字数:1343 字

    阅读完需:约 4 分钟

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载,包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时,尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息,推断可能会占到其机器学习工作成本的 90%。


新 Inf1 实例


今天,我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持,旨在为您提供快速、低延迟的推断。


AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能:


  • 16 位浮点(FP16BF16)和混合精度数据上的 64 teraOPS。

  • 8 位整数 (INT8) 数据上的 128 teraOPS。


这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片,新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比,Inf1 实例可提供 3 倍的推断吞吐量,并且每个推断可降低成本高达 40%。


以下是大小和规格:


col 1col 2col 3col 4col 5col 6


** 实例名称


| Inferentia 芯片


** | vCPU | RAM | EBS 带宽 | 网络带宽


inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps


inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps


这些实例使用自定义的第二代 Intel® Xeon® Scalable (Cascade Lake) 处理器,并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分(在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区)推出。您可以立即启动实例,它们也即将可以通过 Amazon SageMakerAmazon ECS 以及 Amazon Elastic Kubernetes Service 推出。


使用 Inf1 实例


Amazon 深度学习 AMI 已更新,其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK,后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外,您还可以将 SDK 包括在您自己的 AMI 和映像中。


您可以在 GPU 实例上构建和培训模型,如 P3 或 P3dn,然后将其移至 Inf1 实例,以供生产使用。您可以使用在 FP16 中本地培训的模型,或者使用已培训为 32 位精度的模型,并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型(例如用于语言翻译或自然语言处理的模型)拆分到多个 Inferentia 芯片上,以便减少延迟。


此外,通过 AWS Neuron SDK,您还可以将模型分配至 Neuron 计算组,然后并行运行它们。这使您能够最大化硬件使用率,并将多个模型用作 Neuron Core Pipeline 模式的一部分,从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程,以了解更多信息!


Jeff;


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/


2019-12-11 15:36879

评论

发布
暂无评论
发现更多内容

JVM调优神器,运用 Arthas 释放 Java应用性能的全部潜力

做梦都在改BUG

Java JVM 性能调优 Arthas

卷起来了!阿里最新出品“微服务全阶笔记”,涵盖微服务全部操作

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

PoseiSwap以2500万美元估值,再获新一轮融资

股市老人

肝完阿里最新Java并发编程全优笔记,我成功晋升公司架构组

做梦都在改BUG

Java 并发编程

太爆了!阿里最新出品2023版JDK源码学习指南,Github三天已万赞

Java你猿哥

Java 源码 jdk 多线程 jdk源码

魔兽争霸3冰封王座中文下载_冰封王座 mac下载_解除8M地图限制

Rose

魔兽争霸3 冰封王座 Warcraft III Mac游戏下载

神界原罪2游戏下载|DLC终极版|Mac游戏专区

Rose

神界:原罪2 神界原罪 Mac游戏 神界原罪 破解版下载

Exposure X7 Bundle下载|专业的照片处理插件套装

Rose

滤镜插件 Exposure X7 Bundle下载 Exposure X7中文版

阿里P8整理的《百亿级并发系统设计》实战手册,实在是太香了

程序知音

Java 高并发 java架构 Java进阶 后端技术

Create Vite App 支持 OpenTiny 啦🎉

Kagol

JDK源码怎么学?看这篇文章就够了!

Java永远的神

Java 程序员 多线程 jdk源码 架构师

2024深圳电子信息展

AIOTE智博会

弯道超车!阿里高工新产Java面试速成指南,面试骚操作都在里面了

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

文心一言 VS 讯飞星火 VS chatgpt (18)-- 算法导论4.1 5题

福大大架构师每日一题

福大大 文心一言 讯飞星火

OKX和UniSat联手革新比特币区块链上的BRC-20

币离海

华东手机银行用户经营洞察2023

易观分析

金融 手机银行

Java 创建一个大文件

HoneyMoose

2023-05-19:汽车从起点出发驶向目的地,该目的地位于出发位置东面 target 英里处。 沿途有加油站,每个 station[i] 代表一个加油站, 它位于出发位置东面 station[i][

福大大架构师每日一题

Go 算法 rust 福大大

单例模式:确保一个类只有一个实例,提高程序的可维护性和可扩展性

Jack

ehviewer苹果下载版本2023最新版本

ehviewer

EhViewer

小白白也能学会的 PyQt 教程 —— 图像类及图像相关基础类介绍

繁依Fanyi

Python PyQt

2023最新版互联网Java高级工程师面试八股文出炉!面面俱到,太全了

架构师之道

编程 java面试

内部消息!阿里首次10亿级并发系统设计文档,Github都为之低头?

Java你猿哥

架构 ssm 高并发 并发系统设计 并发系统

真香!阿里最新出品Java面试核心讲(终极版),Github已星标50K

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

PoseiSwap以2500万美元估值,再获新一轮融资

西柚子

2023最新最全的Java面试八股文小抄开源!带你摸熟 20+ 互联网公司面试考点

采菊东篱下

Java 面试

原生Mac视频下载器Downie4许可证下载v4.6.17

Rose

Mac 视频下载工具 Downie 4 下载 Downie4许可证 Downie 4 Mac版 Downie 4中文版

Mac强大音频采样器Kontakt 7 激活版

Rose

mac音频采样器 Kontakt 7激活版 Native Instruments Kontakt 7 mac下载

Mac平台上的条形码生成工具分享~

真大的脸盆

Mac Mac 软件 条形码生成工具 条形码软件

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章