HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

  • 2024-11-20
    北京
  • 本文字数:2078 字

    阅读完需:约 7 分钟

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案

据 The Information 最新报道,英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题,导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划


英伟达早在今年 3 月发布了 Blackwell 系列产品,原计划是 2024 年第二季度发货,但之前已经因为设计缺陷而推迟。


据报道,Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题,不仅限制了 GPU 性能,还可能损坏硬件组件。


为解决这一问题,英伟达不得不多次调整机架设计,并对冷却系统进行工程修订。据悉,英伟达已指示供应商实施多项改进措施。


英伟达对此回应称,散热问题和设计变更是技术开发中的正常流程,并重申正在与云服务商和供应商合作,确保最终产品符合性能和可靠性要求。


戴尔宣布,基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货


在等待 Blackwell 问题解决的同时,一些客户已开始考虑替代方案。据报道,部分客户比如微软,已计划通过更换部分组件来定制 Blackwell 机架,以适应其数据中心需求。


一位云计算公司高管透露,他们正在增加当前一代 Hopper 芯片的采购量。分析认为,这可能在短期内提升英伟达的收入,尤其是 Hopper 芯片的利润率较高。然而,这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求,对英伟达的长期增长构成潜在威胁。


在散热问题之前,因为封装设计的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术,通过局部硅互连(LSI)桥实现高达 10 TB/s 的数据传输速度。然而,GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配,曾导致芯片变形和系统故障。


为解决这一问题,英伟达调整了芯片结构,并重新设计模具,最终在 10 月底完成了修正。


Tom’s Hardware 指出,尽管此类调整在大规模技术推广中很常见,但还是可能会进一步推迟 Blackwell 的预期发货时间

Blackwell 需求惊人,性能表现屡创新高


Blackwell 芯片自发布以来,市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示,市场对 Blackwell 芯片的需求强到“疯狂(insane)”。


在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也继续展现领先的性能。


上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中,训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外,得益于 HBM3e 高带宽内存的应用,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。


与此同时,Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中,Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。


分析师普遍认为,AI 应用的发展仍处于早期阶段,Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计,Blackwell 新产品线将在 2025 年第一季度提升公司收入,预计销售额将在 50 亿至 60 亿美元之间。


随着 Blackwell 预计于 2025 年 1 月底开始大规模交付,其实际表现能否满足市场预期,将成为接下来观察的重点。

AMD 推出新款 AI 芯片挑战 Blackwell

在英伟达努力解决技术问题的同时,AMD 也在加速进军 AI 芯片市场。上个月,AMD 宣布推出全新 AI 芯片 Instinct MI325X,并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。


目前,英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额,而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者,AMD 计划每年发布一款新芯片,以更快响应市场需求并缩小与英伟达的差距。


AMD 预计,到 2028 年,AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示,“AI 需求正在迅速超出预期,全球范围内的投资仍在加速。”在性能方面,苏姿丰表示,MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。


虽然 AMD 没有宣布新的客户名单,但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调,其芯片在生成内容和预测类 AI 应用中具有优势,这得益于其先进的内存设计。

然而,英伟达的 CUDA 语言已成为 AI 开发的事实标准,其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出,随着 Meta、微软等云巨头对 AI 需求的持续增长,AMD 有机会通过价格和性能的差异化策略,吸引更多客户,尤其是在生成式 AI 模型推理等细分领域。


参考链接:

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

2024-11-20 11:293

评论

发布
暂无评论

CCF201712-2 游戏

爱好编程进阶

Java 程序员 后端开发

Dubbo中的统一契约是如何实现的?

爱好编程进阶

Java 程序员 后端开发

final的两个重排序规则

爱好编程进阶

程序员 后端开发

Fluid 0

爱好编程进阶

Java 程序员 后端开发

2020最后一次Java面试,快手三面一轮游,如今已拿意向书

爱好编程进阶

Java 程序员 后端开发

43岁老程序员的编程之路,我是如何做到退休的?龙叔真的退休了吗

爱好编程进阶

Java 程序员 后端开发

CPU战争40年,终于把Intel打趴下了

爱好编程进阶

Java 程序员 后端开发

Day461

爱好编程进阶

程序员 后端开发

图片

武师叔

CentOS7 部署 LAMP 平台与应用

爱好编程进阶

Java 程序员 后端开发

Eclipse+Java+Swing实现企业人事管理系统

爱好编程进阶

Java 程序员 后端开发

技术揭秘 | 阿里云EMR StarRocks 线上发布会预约开启!

阿里云大数据AI技术

StarRocks 产品发布会

B站【狂神说Java笔记】-java基础语法

爱好编程进阶

Java 程序员 后端开发

java培训分布式和集群的区别

@零度

分布式 JAVA开发 集群

FPGA(3)--VHDL及原理图--4位全加器

爱好编程进阶

程序员 后端开发

Backbone 之 DetNet:为检测而生(Pytorch实现及代码解析

爱好编程进阶

Java 程序员 后端开发

Bootstrap表格

爱好编程进阶

Java 程序员

全球最大的半导体IP产业链,你了解多少?

Finovy Cloud

gpu GPU服务器 显卡、gpu

Eclipse+Java+Swing实现仓库管理系统

爱好编程进阶

Java 程序员 后端开发

2021字节、阿里大厂高频面试真题1000道(附答案解析

爱好编程进阶

Java 程序员 后端开发

6年,终拿腾讯 offer!

爱好编程进阶

程序员 后端开发

2022年Java面试题最新整理,附白话答案

爱好编程进阶

Java 程序员 后端开发

CentOS安装MySQL详解

爱好编程进阶

Java 程序员 后端开发

ElasticSearch三节点集群搭建笔记(中心化版本)

爱好编程进阶

程序员 后端开发

如何将知识管理应用到工作中,解决企业的问题?

小炮

银丰新融:搭建名单监控管理系统,落实“三反”政策

华为云开发者联盟

安全 GaussDB 反洗钱 名单监控管理系统

09-SSO微服务工程中用户行为日志的记录(2107~2108~2109

爱好编程进阶

Java 程序员 后端开发

Day269

爱好编程进阶

Java 程序员 后端开发

Dubbo

爱好编程进阶

程序员 后端开发

5年从初学者变成行业大拿,月薪暴涨10倍,我的经验值得借鉴

爱好编程进阶

程序员 后端开发

Cloud-借助消息队列解决分布式事务

爱好编程进阶

Java 程序员

英伟达 Blackwell 芯片又又又曝问题!老黄大半年没搞定,微软们被迫换货、换方案_英伟达_罗燕珊_InfoQ精选文章