写点什么

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

  • 2024-11-20
    北京
  • 本文字数:2078 字

    阅读完需:约 7 分钟

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

据 The Information 最新报道,英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题,导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划


英伟达早在今年 3 月发布了 Blackwell 系列产品,原计划是 2024 年第二季度发货,但之前已经因为设计缺陷而推迟。


据报道,Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题,不仅限制了 GPU 性能,还可能损坏硬件组件。


为解决这一问题,英伟达不得不多次调整机架设计,并对冷却系统进行工程修订。据悉,英伟达已指示供应商实施多项改进措施。


英伟达对此回应称,散热问题和设计变更是技术开发中的正常流程,并重申正在与云服务商和供应商合作,确保最终产品符合性能和可靠性要求。


戴尔宣布,基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货


在等待 Blackwell 问题解决的同时,一些客户已开始考虑替代方案。据报道,部分客户比如微软,已计划通过更换部分组件来定制 Blackwell 机架,以适应其数据中心需求。


一位云计算公司高管透露,他们正在增加当前一代 Hopper 芯片的采购量。分析认为,这可能在短期内提升英伟达的收入,尤其是 Hopper 芯片的利润率较高。然而,这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求,对英伟达的长期增长构成潜在威胁。


在散热问题之前,因为封装设计的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术,通过局部硅互连(LSI)桥实现高达 10 TB/s 的数据传输速度。然而,GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配,曾导致芯片变形和系统故障。


为解决这一问题,英伟达调整了芯片结构,并重新设计模具,最终在 10 月底完成了修正。


Tom’s Hardware 指出,尽管此类调整在大规模技术推广中很常见,但还是可能会进一步推迟 Blackwell 的预期发货时间

Blackwell 需求惊人,性能表现屡创新高


Blackwell 芯片自发布以来,市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示,市场对 Blackwell 芯片的需求强到“疯狂(insane)”。


在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现领先的性能。


上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中,训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外,得益于 HBM3e 高带宽内存的应用,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。


与此同时,Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中,Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。


分析师普遍认为,AI 应用的发展仍处于早期阶段,Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计,Blackwell 新产品线将在 2025 年第一季度提升公司收入,预计销售额将在 50 亿至 60 亿美元之间。


随着 Blackwell 预计于 2025 年 1 月底开始大规模交付,其实际表现能否满足市场预期,将成为接下来观察的重点。

AMD 推出新款 AI 芯片挑战 Blackwell

在英伟达努力解决技术问题的同时,AMD 也在加速进军 AI 芯片市场。上个月,AMD 宣布推出全新 AI 芯片 Instinct MI325X,并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。


目前,英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额,而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者,AMD 计划每年发布一款新芯片,以更快响应市场需求并缩小与英伟达的差距。


AMD 预计,到 2028 年,AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示,“AI 需求正在迅速超出预期,全球范围内的投资仍在加速。”在性能方面,苏姿丰表示,MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。


虽然 AMD 没有宣布新的客户名单,但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调,其芯片在生成内容和预测类 AI 应用中具有优势,这得益于其先进的内存设计。

然而,英伟达的 CUDA 语言已成为 AI 开发的事实标准,其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出,随着 Meta、微软等云巨头对 AI 需求的持续增长,AMD 有机会通过价格和性能的差异化策略,吸引更多客户,尤其是在生成式 AI 模型推理等细分领域。


参考链接:

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

2024-11-20 11:299983

评论

发布
暂无评论
发现更多内容

开放原子开源基金会秘书长孙文龙 | 凝心聚力,共拓开源

kk-OSC

开放原子全球开源峰会

专访 | 软通动力高级副总裁秦张波:开源驱动创新,推动操作系统产业生态建设

kk-OSC

开放原子全球开源峰会

推荐算法的三大研究热点

博文视点Broadview

2022年企业直播行业发展洞察

易观分析

数据分析 报告 企业直播

PD 源码分析- Checker: region 健康卫士

TiDB 社区干货传送门

TiKV 源码解读

大数据培训技术入门

小谷哥

TiDB 操作实践 -- 备份与恢复

TiDB 社区干货传送门

备份 & 恢复

TiFlash 源码阅读(五) DeltaTree 存储引擎设计及实现分析 - Part 2

TiDB 社区干货传送门

聊聊性能测试环境搭建

老张

性能测试 环境搭建

云图说丨华为云区块链引擎服务:高安全的区块链技术服务平台,轻松部署,快速上链

华为云开发者联盟

区块链 华为云 引擎 BCS

CSDN TOP1“一个处女座的程序猿“如何通过写作成为百万粉丝博主

Lansonli

7月月更 如何写作

LED透明屏和LED玻璃显示屏区别

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

开源峰会抢先看 | 7 月 29 日分论坛 & 活动议程速览

kk-OSC

开放原子全球开源峰会

一键搭建博客:如何使用WordPress插件搭建专属博客

hum建应用专家

Wordpress 部署 Wordpress 博客部署

共建共享数字世界的根:阿里云打造全面的云原生开源生态

阿里巴巴云原生

阿里云 容器 云原生 开源生态

Dapr相比于SpringCloud和Istio的优势在哪?

王小凡

Java 程序员 istio SpringCloud 微服务框架

web前端培训好还是自学前端

小谷哥

重磅 | 基金会为白金、黄金、白银捐赠人授牌

kk-OSC

开放原子全球开源峰会

多元宇宙:重塑新商业格局

智捷云

元宇宙 智捷云 智捷云科技

大数据培训机构应该注意什么

小谷哥

TiCDC同步延迟问题处理

TiDB 社区干货传送门

实践案例 管理与运维 故障排查/诊断 大数据场景实践

我和 TiDB 的故事 | 缘份在,那就终是能相遇的

TiDB 社区干货传送门

人物访谈 社区活动

参加Java培训学习哪些方法

小谷哥

命里有时终须有--记与TiDB的一次次擦肩而过

TiDB 社区干货传送门

人物访谈 社区活动

专访 | 阿里巴巴首席技术官程立:云 + 开源共同形成数字世界的可信基础

kk-OSC

开放原子全球开源峰会

即学即用的问题解决思维,给无意识的生活装上“后视镜”

图灵教育

Alluxio为Presto赋能跨云的自助服务能力

Alluxio

数据架构 presto 跨云 Alluxio

详细讲解https证书openssl公钥私钥以及ssh公钥私钥的生成以及使用

Geek_6516e4

签约计划第三季

QCon大会广州站它来了!独家定制双肩背包等你领取!

InfoQ写作社区官方

Qcon

AI全流程开发难题破解之钥

华为云开发者联盟

人工智能 华为云

参加web前端培训入门学习

小谷哥

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案_英伟达_罗燕珊_InfoQ精选文章