写点什么

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

  • 2019-12-11
  • 本文字数:1343 字

    阅读完需:约 4 分钟

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理

我们的客户将大规模地采用机器学习。他们运行许多种类型的工作负载,包括对象检测、语音识别、自然语言处理、个性化和欺诈检测。运行大规模生产工作负载时,尽可能快速、划算地执行推断是非常有必要的。根据他们告诉我们的信息,推断可能会占到其机器学习工作成本的 90%。


新 Inf1 实例


今天,我们将推出四种大小的 Inf1 实例。这些实例由 AWS Inferentia 芯片提供支持,旨在为您提供快速、低延迟的推断。


AWS Inferentia 芯片旨在加速推断流程。每个芯片均可提供以下性能:


  • 16 位浮点(FP16BF16)和混合精度数据上的 64 teraOPS。

  • 8 位整数 (INT8) 数据上的 128 teraOPS。


这些芯片还包括高速互连和大量内存。通过最大实例上的 16 个芯片,新的和现有的 TensorFlow、PyTorch 和 MxNet 推断工作负载可从 2 petaOPS 推断功能中受益。与 G4 实例相比,Inf1 实例可提供 3 倍的推断吞吐量,并且每个推断可降低成本高达 40%。


以下是大小和规格:


col 1col 2col 3col 4col 5col 6


** 实例名称


| Inferentia 芯片


** | vCPU | RAM | EBS 带宽 | 网络带宽


inf1.xlarge | 1 | 4 | 8 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.2xlarge | 1 | 8 | 16 GiB | 最高 3.5 Gbps | 最高 25 Gbps


inf1.6xlarge | 4 | 24 | 48 GiB | 3.5 Gbps | 25 Gbps


inf1.24xlarge | 16 | 96 | 192 GiB | 14 Gbps | 100 Gbps


这些实例使用自定义的第二代 Intel® Xeon® Scalable (Cascade Lake) 处理器,并以按需、Spot 和预留实例形式或者作为 Savings Plan 的一部分(在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区)推出。您可以立即启动实例,它们也即将可以通过 Amazon SageMakerAmazon ECS 以及 Amazon Elastic Kubernetes Service 推出。


使用 Inf1 实例


Amazon 深度学习 AMI 已更新,其中包含经过优化用于 Inf1 实例的 TensorFlow 和 MxNet 版本以及即将推出的 PyTorch。AMI 包含新的 AWS Neuron SDK,后者包含用于在 Inferentia 芯片上编译、优化和执行 ML 模型的命令。此外,您还可以将 SDK 包括在您自己的 AMI 和映像中。


您可以在 GPU 实例上构建和培训模型,如 P3 或 P3dn,然后将其移至 Inf1 实例,以供生产使用。您可以使用在 FP16 中本地培训的模型,或者使用已培训为 32 位精度的模型,并让 AWS Neuron 将其自动转换为 BF16 形式。可以将大型模型(例如用于语言翻译或自然语言处理的模型)拆分到多个 Inferentia 芯片上,以便减少延迟。


此外,通过 AWS Neuron SDK,您还可以将模型分配至 Neuron 计算组,然后并行运行它们。这使您能够最大化硬件使用率,并将多个模型用作 Neuron Core Pipeline 模式的一部分,从而在每个 Inferentia 芯片上充分利用大型芯片上缓存的优势。请务必阅读 AWS Neuron SDK 教程,以了解更多信息!


Jeff;


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/


2019-12-11 15:36924

评论

发布
暂无评论
发现更多内容

SpringDataJPA的Audit功能,审计数据库的变更,springmvc源码分析pdf百度云

Java 程序员 后端

最佳实践|Apache Pulsar 在华为云物联网之旅

Apache Pulsar

云原生 消息中间件 Apache Pulsar 消息系统 用户案例 华为云物联网

Spring全家桶+高并发编程+Netty,mybatis面试题大全

Java 程序员 后端

Spring中使用的设计模式,mybatis自动映射原理

Java 程序员 后端

Spring之防止连接泄露的处理办法,Java开发必会技术

Java 程序员 后端

Spring学习--面向抽象编程(模拟Spring的简单实现),java架构师教学视频全百度云

Java 程序员 后端

springcloud 高可用的服务注册中心及更高可用,java面试设计题

Java 程序员 后端

SpringCloudRPC调用核心原理:RxJava响应式编程框架,聚合操作符

Java 程序员 后端

Spring事务传播属性(面试),分布式中间件技术实战钟林森

Java 程序员 后端

Spring源码解析(二)AOP,java基础课程百度云

Java 程序员 后端

Spring常用API:Spring类及相关面试点,rabbitmq分布式事务实现原理

Java 程序员 后端

Spring框架底层原理-IoC,java架构师指南pdf下载

Java 程序员 后端

Spring框架(四)SpringMVC基础,2021最新大厂Java面经

Java 程序员 后端

springcloud(三)网关zuul,2021Java进阶学习资料

Java 程序员 后端

SpringDataJPA之快速入门,arm架构v8和V9区别

Java 程序员 后端

低代码开发平台是什么意思?低代码开发平台优势!

低代码小观

低代码 开发 开发工具 开发平台 企业开发系统

云图说|玩转华为HiLens之端云协同AI开发

华为云开发者联盟

华为云 云图说 华为HiLens 端云协同

Spring常用注解(绝对经典),非科班面试之旅

Java 程序员 后端

Spring注解驱动,java面试项目中遇到的问题

Java 程序员 后端

谈谈对Dapr的一些感想

LLLLimbo

架构 分布式 微服务 云原生 dapr

SpringSecurity安全控件使用指南,建议细读

Java 程序员 后端

Spring全家桶+高并发编程+Netty(1),Java者升职加薪的8项技能

Java 程序员 后端

从挣扎突破到英雄联盟!中国SaaS头部企业阵营渐显

海比研究院

SaaS平台

Spring事务与事务抽象,java多线程面试总结

Java 程序员 后端

Spring核心——Bean的定义与控制,linuxshell脚本教程

Java 程序员 后端

Spring源码学习~循环依赖(面试必问系列,java最新框架技术

Java 程序员 后端

Spring的XML解析原理,这一次全搞懂再走!,springmybatis整合原理

Java 程序员 后端

SpringCloudRPC远程调用核心原理:Feign远程调用的执行流程

Java 程序员 后端

OpenHarmony LiteOS C-SKY指令集移植指南

华为云开发者联盟

LiteOS 指令集 OpenHarmony C-SKY 移植

使用Java+SAP云平台+SAP Cloud Connector调用ABAP On-Premise系统里的函数

汪子熙

云平台 SAP abap 11月日更

SpringIOC中复杂属性如何“巧妙”赋值,java五年工作经验面试题

Java 程序员 后端

配备 AWS Inferentia 芯片的 Inf1 实例推出,实现高性能、高性价比的推理_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章