QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

  • 2024-07-31
    北京
  • 本文字数:4162 字

    阅读完需:约 14 分钟

大小:1.98M时长:11:32
缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的10万卡超级集群?

埃隆·马斯克掌控的那几家公司——包括 SpaceX、特斯拉、xAI 乃至 X(原 Twitter)——都需要大量的 GPU,而且也都是为自己的特定 AI 或者高性能计算(HPC)项目服务。但问题在于,市场上根本就没有充足的 GPU 能够满足他们各自宏伟目标所承载的勃勃野心。为此,马斯克必须为自己所能得到的有限 GPU 规划出最优用途。

 


筹集资金比筹集 GPU 容易得多

 

早在 2015 年,马斯克就慧眼独具地成为 OpenAI 的联合创始人。而在 2018 年的一场权力斗争之后(我们猜测这场斗争很可能与推动 AI 模型所消耗的巨额资金,以及对于此类 AI 模型的治理思路有直接关系),马斯克离开 OpenAI 并让微软有了可乘之机。软件巨头携大笔资金入驻,并推动 OpenAI 迅速成长为一股开发生产级生成式 AI 的主导性力量。面对这样的现实,马斯克果断于 2023 年 4 月成立 xAI 公司,自此之后这家初创公司也一直在努力筹集资金并争取 GPU 配额,希望建立起足以对抗 OpenAI/微软、谷歌、亚马逊云科技、Anthropic 等知名大厂的计算基础设施。

而其中,筹集资金显然是最简单的部分。

 

截至 5 月底,Andreessen Horowitz、红杉资本、Fidelity Management、Lightspeed Venture Partners、Tribe Capital、Valor Equity Partners、Vy Capital 和 Kingdom Holding(沙特王室控股公司)纷纷加入 xAI 总额 60 亿美元的 B 轮融资,一举推动其融资总值来到 64 亿美元。这是个好的开始,更幸运的是马斯克从特斯拉的全球经营中拿到了 450 亿美元的薪酬收益,因此可以随时把这笔巨款投入到 xAI GPU 的后续发展身上。(当然,更明智的作法应该是保留一部分作为特斯拉、X 和 SpaceX 的 GPU 采购基金。)

 

从特定角度来讲,特斯拉相当于是一次性付清了马斯克于 2022 年 4 月收购 X 所投入的全部 440 亿美元,同时又额外给了他 10 亿美元。这笔钱足够作为备用资金买下 2.4 万个 GPU 集群。必须承认,作为电动汽车的先驱力量,特斯拉已经撼动了整个汽车行业,其 2023 年的销售额为 968 亿美元,其中净利润为 150 亿美元,公司目前掌握的现金则为 291 亿美元。但即使是在如今这个财富分配极不公平的时代,450 亿美元的回报仍然是个相当离谱的薪酬方案。但马斯克有他的大事要做,所以他主导的董事会愿意牺牲掉特斯拉的利益,拿出更多资本哄这位时代的骄子开心。

 

不过按照同样的市值逻辑来判断,我们似乎也可以用 6500 亿美元买下摩根大通,而资金来源仍然是美国银行、阿布扎比、美联储以及我们能说动的其他资方。这样到了明年,我们就能给自己开出比收购成本略高一点点的薪酬——比如说 6750 亿美元。这样还清贷款之后,咱还能剩下 250 亿美元随便花花……抱歉跑题了,但这种情景真是想想都让人开心。

 

总之从目前的情况看,xAI 必须在计算、存储和网络层面表现出旺盛的需求。

 

Grok-0 大语言模型拥有 330 亿个参数,是在 xAI 成立几周之后就于 2023 年 8 月开始训练。Grok-1 拥有可响应提示词的对话式 AI 功能,有着 3140 亿参数,于 2023 年 11 月上市。该模型随后于 2024 年 3 月开源,很快 Grok-1.5 模型也正式亮相。与 Grok-1 相比,1.5 版本有着更长的上下文窗口和更高的认知测试平均绩点。

 


可以看到,Grok-1.5 的智能程度略低于谷歌、OpenAI 和 Anthropic 等竞争对手打造的同类模型。

即将推出的 Grok-2 模型将于 8 月之内与大家见面,该模型计划在 2.4 万张英伟达 H100 GPU 上进行训练。另据报道,该模型采用的是甲骨文的云基础设施。(甲骨文已经与 OpenAI 签署一项协议,允许其使用 xAI 未能尽用的剩余 GPU 容量。)

 

马斯克曾在多条推文中表示,Grok-3 也将在今年年底问世,需要 10 万个英伟达 H100 GPU 集群上接受训练,并将能够与 OpenAI 和微软正在开发的下一代 GPT-5 模型相媲美。甲骨文和 xAI 也积极就 GPU 容量分配方式讨论协议。但三周前价值 100 亿美元的 GPU 集群交易破坏消息一出,马斯克当即决定转变方向,在田纳西州孟菲斯南部的一处旧伊莱克斯工厂建造起“计算超级工厂”,用以容纳他自有的 10 万个 GPU 集群。如果大家恰好身在孟菲斯周边,接下来的情况可能有点疯狂——因为 xAI 号称将占用 150 兆瓦的区域供电。

 

据彭博社的报道,目前该处工厂已经分配到 8 兆瓦供电,未来几个月内有望增加到 50 兆瓦。而要想继续超越这个数字,则需要经过田纳西河谷管理局的繁琐审批。

 

不过目前来看除非英伟达愿意鼎力相助,否则马斯克似乎不太可能在今年 12 月之前拿到自己全部的 10 万张 H100 GPU

 

寻求英伟达这种芯片的公司名单很长,可能包括当今大多数大型科技公司,但只有少数几家公司公开宣称他们拥有多少 H100 芯片。

 


来源:The Information

 

据《The Information》报道,风险投资公司 Andreesen Horowitz 正囤积超过 2 万块昂贵的 GPU,作用是将其出租给 AI 初创公司以换取对方公司股份。

 

OpenAI 也一直没有透露他们拥有多少 H100 芯片,但据《The Information》报道,该公司以大幅折扣租用了微软提供的专用于训练的处理器集群,这是微软对 OpenAI 100 亿美元投资的一部分。据报道,这个训练集群的算力相当于 12 万块 Nvidia 上一代的 A100 GPU,并将在未来两年内花费 50 亿美元从 Oracle 租用更多的训练集群。

 

特斯拉一直在努力收集 H100。今年 4 月,马斯克在一次财报电话会议上表示,特斯拉希望在年底前拥有 3.5 万到 8.5 万块 H100。

 

为了给 xAI 筹集 GPU,马斯克最近还被特斯拉股东起诉,指控他将原本用于汽车制造商 AI 训练基础设施的 12,000 块 H100 芯片转给了 xAI。在昨天的特斯拉第二季度财报电话会议上,当被问及这一调配问题时,马斯克表示,这些 GPU 之所以被送往 xAI,是因为“特斯拉的数据中心已经满了,实际上没有地方可以放置它们。”

 

10 万张 H100 的单一集群,谁有能力构建出来?

 

上周马斯克曾发推文表示:



xAI、X、英伟达和各支持部门都做得很好,孟菲斯超级集群训练已经于当地时间凌晨 4:20 启动。

其单一 RDMA 结构上承载有 10 万张液冷 H100 GPU,这是世界上最强大的 AI 训练集群!

要实现在今年 12 月之前训练出全球最强 AI 模型的目标,这一切无疑是个显著的优势。

 

也许马斯克的这套系统最终会被称为 SuperCluster,也就是 Meta Platforms 对于采购来、而非自建 AI 训练系统时指定的称呼。

 

另外 10 万张 GPU 这个结论恐怕只是个愿景,也许到 12 月时 xAI 能拿到的 GPU 总共也只有 2.5 万张。但即使是这样,此等规模仍足以训练出一套体量庞大的模型。我们看到的部分报告指出,孟菲斯超级集群要到 2025 年晚些时候才能最终完成扩展,按目前的 GPU 供应能力来说这话其实颇为合理。

 

另外,上线后,孟菲斯超级集群的供电也是一个问题,不过马斯克也并没有说到底启动了多少张 H100。有网友讽刺道,马斯克的这种说法在极端情况下确实是成立的,比如只启动了 1 个 GPU 进行训练,而其他 99,999 个 GPU 并没有足够的电源来连接。

 


目前只有 3.2 万块上线,其余将在第四季度上线。如果达到 10 万块 GPU,要么变电站提前完工,要么需要更多这样的设备。

 

我们还可以从 Supermicro 公司创始人兼 CEO Charles Liang 的推文中做点推断,该公司正负责为 xAI 孟菲斯数据中心部署水冷设备:

 


很高兴能与马斯克一同创造历史,与他的孟菲斯团队合作也是一段美好的经历!为了达成目标,我们必须尽可能完美、快速、高效且环保地推进工作——虽然需要付出很多努力,但也同样极具意义而且令人兴奋!

 


图片来源:Charles Liang

 

目前还不清楚关于服务器基础设施的具体信息,但我们强烈怀疑这套系统将采用八路 HGX GPU 基板,并且属于 Supermicro 的机架式系统,其设计灵活来自英伟达的 SuperPOD 配置方案,但同时又有独特的工程调整以降低价格水平。采用八路 HGX 基板,该系统总计可容纳 1.25 万个节点,后端网络将承载 10 万张 GPU 和 10 万个端点;前端网络同样拥有 1.25 万个端点,即用于访问集群中数据和管理类负载的节点。

 

瞻博网络首席执行官 Rami Rahim 也讨论了该公司参与孟菲斯超级集群项目的情况:



恭喜马斯克、xAI 和 X!很高兴瞻博网络成为孟菲斯超级集群团队中的一员,并将我们的网络解决方案融入到这项创新工程当中。

 

从这些推文的内容来看,瞻博方面似乎是以某种方式拿下了孟菲斯超级集群的网络交易。考虑到 Arista Networks 和英伟达也在 AI 集群网络方面拥有深厚积累,马斯克最终选择瞻博着实令人感到惊讶。我们还没有从 Arista 那里看到与孟菲斯项目有关的任何消息;但在 5 月 22 日,英伟达在发布其 2025 财年第一季度财报时,公司首席财务官 Colette Kress 曾经表示:

 

“今年第一季度,我们开始针对 AI 发布经过优化的全新 Spectrum-X 以太网网络解决方案。其中包括我们的 Spectrum-4 交换机、BlueField-3 DPU 和新的软件技术,用以克服以太网承载 AI 工作负载时面临的挑战,为 AI 处理提供 1.6 倍于传统以太网的网络性能。

Spectrum-X 的销量也在不断增长,吸引到众多客户,包括一个庞大的 10 万 GPU 集群项目。Spectrum-X 为英伟达网络开辟出了全新的市场,使得纯以太网数据中心也能够容纳大规模 AI 类负载。我们预计 Spectrum-X 将在未来一年内跃升为价值数十亿美元的产品线。”

 

首先需要承认一点,这个世界上肯定没有多少项目能够豪爽地叫出“10 万张 GPU”这么夸张的体量,所以英伟达在 5 月声明中提到的几乎必然就是孟菲斯超级集群。再结合最近马斯克对于该系统的评价,我们认为英伟达应该是依靠 Spectrum-X 设备拿下了后端(或者叫东西向)网络部分,而瞻博则负责实现前端(或者叫南北向)网络部分。Arista 那边则没有任何动静。

 

但截至目前,我们仍不清楚孟菲斯超级集群具体会使用哪种存储解决方案。其可能是基于 Supermicro 的闪存加硬盘混合型原始存储阵列,可运行任意数量的文件系统;也可能是 Vast Data 或者 Pure Storage 提供的全闪存阵列。但如果非要选出一种赢面最大的方案,那我们会大胆认为 Vast Data 应该是参与了这笔交易,并拿下规模可观的存储订单。不过这种猜测也没有明确的依据,只是根据该公司大规模存储阵列过去两年在高性能计算和 AI 领域表现出的市场吸引力提出的假设。

 

参考链接:

https://www.nextplatform.com/2024/07/30/so-who-is-building-that-100000-gpu-cluster-for-xai/

https://sherwood.news/tech/companies-hoarding-nvidia-gpu-chips-meta-tesla/

https://techcrunch.com/2024/06/13/tesla-shareholders-sue-musk-for-starting-competing-ai-company/

https://www.youtube.com/watch?v=ktkCRVxTuEI&t=1325s

https://digitalassets.tesla.com/tesla-contents/image/upload/IR/TSLA-Q2-2024-Update.pdf

https://x.com/dylan522p/status/1815710429089509675

https://www.reddit.com/r/mlscaling/comments/1ea3vu1/xais_100k_h100_computing_cluster_goes_online/

 

2024-07-31 20:123784

评论

发布
暂无评论
发现更多内容

如何利用 Go 创建一个 Web 应用

宇宙之一粟

Go Web 服务端 客户端 三周年连更

Oracle EBS学习篇:Oracle EBS启用诊断功能

back_wang

灾备的级别和等级划分

穿过生命散发芬芳

灾备 三周年连更

音视频八股文(5)--SDL音视频渲染实战。会使用就行,不需要深究。

福大大架构师每日一题

音视频 SDL 流媒体 福大大

2023 年 10 个最佳 Linux 桌面发行版,每个都是那么的漂亮!

wljslmz

三周年连更

全面解析|搞懂Nginx这一篇就够了

浅羽技术

Java nginx 反向代理 服务器 三周年连更

Go RWMutex:高并发读多写少场景下的性能优化利器

陈明勇

Go golang 读写锁 三周年连更 RWMutex

TPU、TensorFlow—谷歌云“增强”AI 芯片团队,与微软云竞争AI云份额

B Impact

我用ChatGPT的一些实践案例

石云升

AI ChatGPT 三周年连更

Sam Altman:巨型AI模型时代已结束, GPT-4是OpenAI最后成果

B Impact

美国To B软件公司受到ChatGPT“威胁”解析

B Impact

响应系统设置的事件

芯动大师

Configuration 响应系统 三周年连更

Kafkaide让IDEA开发者不在游走

扬_帆_起_航

kafka kafka manager

阿里云DTS数据同步实施

乌龟哥哥

三周年连更

关于时间管理的一点建议

光毅

时间管理 Tech Lead

Django笔记十六之aggregate聚合操作

Hunter熊

Python django 聚合 aggregate

2022-04-25:给定两个长度为N的数组,a[]和b[] 也就是对于每个位置i来说,有a[i]和b[i]两个属性 i a[i] b[i] j a[j] b[j] 现在想为了i,选一个最

福大大架构师每日一题

golang 算法 rust 福大大

异步编程|五分钟让你学会局部刷新Ajax技术

浅羽技术

Java ajax js jsp 三周年连更

成立3年,云服务厂商火山引擎全景扫描

B Impact

Go语言并发编程核心-Channel的典型应用场景分析

Jack

磁盘I/O性能监控的指标

阿泽🧸

三周年连更 磁盘IO

陆奇:“模仿”微软Copilot,结构性代际因边际成本转为固定成本

B Impact

Prometheus实战-从0构建高可用监控平台(二)

小毛驴的烂笔头

Linux Prometheus

IDEA用上这十大插件绝对舒服

越长大越悲伤

IDEA idea插件

测试需求平台10-DBUtils优化数据连接与SQL Limit实现分页

MegaQi

测试平台开发 三周年连更

如何将 Java 文件转换为 InputStream?这两种方法很管用!

wljslmz

三周年连更

OpenHarmony接收指定网络的状态变化通知

坚果

OpenHarmony 三周年连更

Nautilus Chain :基于模块化架构的Layer3正在走向成熟

股市老人

用Python也能画图?用Python来画个“python”

Bob

Python

Java 继承 Minio 实现文件上传、文件下载、文件删除等功能

Java架构历程

三周年连更

缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的10万卡超级集群?_生成式 AI_核子可乐_InfoQ精选文章