产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

为中国市场定制!英特尔发布 7nm Gaudi2 处理器,为深度学习训练和推理而生

  • 2023-07-12
    北京
  • 本文字数:1561 字

    阅读完需:约 5 分钟

为中国市场定制!英特尔发布7nm Gaudi2处理器,为深度学习训练和推理而生

2022 年 11 月,ChatGPT发布后,国内多家互联网大厂宣布推出生成式 AI 大模型,这让原本有些沉寂的 AI 赛道一下子又火热起来。在底层硬件方面,中国市场的大模型厂商们急需一款在价格、性能、功耗上具有竞争力的芯片产品。


7 月 11 日,英特尔正式发布了面向中国市场的 7nm 制程第二代 Gaudi 深度学习加速器——Habana® Gaudi®2。


据英特尔称,这是一款为深度学习而生的全新 Gaudi2 训练加速器。该处理器以第一代 Gaudi 高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。该加速器具备:


  • 24 个可编程 Tensor 处理器核心(TPCs)

  • 21 个 100 Gbps(RoCEv2)以太网接口

  • 96GB HBM2E 内存容量

  • 2.4TB/秒的总内存带宽

  • 48MB 片上 SRAM

  • 集成多媒体处理引擎



Habana Lab 是一家以色列公司,专注于高性能人工智能计算和机器学习加速器,其产品广泛应用于云计算、数据中心、嵌入式系统等领域。英特尔和 Habana 在人工智能领域的合作可以追溯到 2018 年,当时 Habana Lab 发布了其首款人工智能加速器 Goya,该产品基于 FPGA 技术,能够加速深度学习算法,自此英特尔与 Habana Lab 建立了战略合作关系,共同开发和推广 AI 加速器。


2019 年,Habana 推出了第一代 Gaudi 芯片,该产品基于 ASIC 技术,具有更高的性能和能效。同年 12 月,Habana 被英特尔收购。


早在 2015 年,英特尔就已经推出了第二代 Gaudi 加速器。该产品基于 7nm 工艺制造,采用了 Habana 的高能效架构,主要针对大型训练和大规模分布式训练应用场景。与 Gaudi 1 相比,Gaudi 2 的性能和功能都有所提升,同时支持更多的深度学习框架和算法,能够更好地满足人工智能应用的需求。


此次在北京发布会上官宣的 Gaudi 2,实际上是面向中国市场的“定制版”。据英特尔介绍,与国际通用版 Gaudi2 相比,中国市场的“定制版”在性能和功能上没有太大差异。


英特尔执行副总裁兼数据中心与人工智能事业部总经理 Sandra Rivera 指出,“英特尔致力于通过为客户提供广泛的硬件选择,并支持开放的软件环境,加速人工智能技术的发展。凭借包括至强可扩展处理器和 Gaudi2 深度学习加速器在内的产品组合,英特尔正在降低人工智能的准入门槛,并强化客户在云端通过网络和智能边缘部署这一关键业务技术的能力,从而帮助构建中国人工智能的未来。”


在 6 月公布的MLCommons® MLPerf®基准测试中,Gaudi2 加速器的性能得到了充分认证,其在 GPT-3 模型、计算机视觉模型 ResNet-50(使用 8 个加速器)、Unet3D(使用 8 个加速器),以及自然语言处理模型 BERT(使用 8 个和 64 个加速器)上均取得了优异的训练结果。Gaudi2 在帮助用户提升运营效率和降低运营成本方面表现不俗。

满足大语言和多模态模型的需求


Gaudi2 深度学习加速器的架构旨在高效扩展,以满足大规模语言模型及生成式 AI 模型的需求。其每张芯片集成了 21 个专用于内部互联的 100Gbps(RoCEv2 RDMA)以太网接口,从而实现低延迟服务器内扩展。


在 Stable Diffusion 训练上,Gaudi2 展示了从 1 张卡至 64 张卡近线性 99%的扩展性。此外,MLCommons 刚刚公布的 MLPerf 训练 3.0结果,亦验证了 Gaudi2 处理器在 1750 亿参数的 GPT-3 模型上,从 256 个加速器到 384 个加速器可实现接近线性 95%的扩展效果。

具备成熟的软件支持


伴随日益增长的生成式 AI 及大语言模型需求,英特尔也在充分释放 Gaudi2 深度学习加速器性能。


为支持客户轻松构建模型,或将当前基于 GPU 的模型业务和系统迁移到基于全新 Gaudi2 服务器,并帮助保护软件开发投入,SynapseAI®软件套件针对 Gaudi 平台深度学习业务进行了优化,旨在与广泛的软件生态系统一起,帮助简化模型的开发和迁移。SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求。


目前,英特尔正与浪潮信息合作,打造并发售基于 Gaudi2 深度学习加速器的浪潮信息 AI 服务器 NF5698G7。该服务器集成了 8 颗 Gaudi2 加速卡 HL-225B,还包含双路第四代英特尔至强可扩展处理器。

2023-07-12 18:023055
用户头像
李冬梅 加V:busulishang4668

发布了 946 篇内容, 共 538.4 次阅读, 收获喜欢 1105 次。

关注

评论

发布
暂无评论
发现更多内容

学习aop以及nginx

百度搜索:蓝易云

nginx Linux 运维 aop 云服务器

Chatbot具体需要如何搭建

百度搜索:蓝易云

云计算 Linux 运维 chatbot 云服务器

将比特币安全性带到Persistence One

股市老人

NVIDIA AI 新网络助力龙蜥提升网络通信速率

OpenAnolis小助手

AI 操作系统 国产操作系统 龙蜥社区

教学必备的9个教案和课件网站!建议收藏!

彭宏豪95

效率工具 培训 在线白板 办公软件 在线教学

十万奖金等你来拿!中国研究生操作系统开源创新大赛火热开启

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 人人都可以参与开源

虚拟仿真云:从传统仿真到云仿真的转变与应用

3DCAT实时渲染

虚拟仿真 仿真云

8款AI视频生成产品实测,谁将成为中国Sora?

自象限

守护更多女性健康,华为云GeminiDB助力美柚完成数据库高效稳定迁移

YG科技

hal库中串口常用函数介绍

百度搜索:蓝易云

云计算 Linux 运维 云服务器 HAL

ai智能写作网站免费!5款工具轻松生成高质量内容!

彭宏豪95

人工智能 写作 在线白板 AIGC AI工具

Cloud Kernel SIG 月度动态:ANCK 特性新增芯片厂商支持、新版本发布

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 龙蜥社区SIG

智算创新 云峦同行!龙蜥衍生版浪潮信息 KeyarchOS 的 10 年发展历程

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

什么是Ubuntu LTS?与常规版本的区别

百度搜索:蓝易云

云计算 Linux ubuntu 运维 云服务器

一文读懂兼顾隐私、高性能和可拓展的公链Partisia Blockchain

加密眼界

GaussDB(for Redis)游戏实践:玩家下线行为上报

YG科技

GaussDB(for Redis)特性揭秘:多租户管理

YG科技

Partisia Blockchain:如何做到兼顾隐私、高性能和可拓展?

西柚子

在线教学用什么软件?这款可视化白板工具值得推荐!

彭宏豪95

培训 在线白板 办公软件 在线协作 在线教学

GaussDB(for Redis)助力金智教育业务数字化,增效降本双赢

YG科技

GaussDB(for Redis)特性揭秘:大key治理

YG科技

C++ 字符串完全指南:学习基础知识到掌握高级应用技巧

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

《计算机网络: 自顶向下方法(原书第7版)》PDF

程序员李木子

C#中使用IntPtr.Size属性来判断当前系统是32位还是64位

百度搜索:蓝易云

C# 云计算 Linux 运维 云服务器

《龙蜥理事说》正式上线,龙蜥携手浪潮信息共同应对 AI 时代新需求

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

5大支撑能力,6大系统优势!解读龙蜥场景化镜像平台技术

OpenAnolis小助手

AI 操作系统 国产操作系统 龙蜥社区

体验 AIGC 魅力!龙蜥社区邀请您从零开始部署运行 GPT-2 大语言模型

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 人人都可以参与开源

提升龙蜥内核测试能力!探究持续性模糊测试优化实践

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 Anolis OS

选择KV数据库最重要的是什么?

YG科技

电源噪声的起因及危害

梦笔生花

噪声 电源

Go连接池复用踩坑

三七互娱后端技术团队

golang

为中国市场定制!英特尔发布7nm Gaudi2处理器,为深度学习训练和推理而生_英特尔_李冬梅_InfoQ精选文章