AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加 10 万个

  • 2024-09-11
    北京
  • 本文字数:759 字

    阅读完需:约 2 分钟

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加10万个

9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群,总共有 100000 个英伟达的 H100 GPU。


马斯克表示,他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地,因此 Colossus 的部署速度可以说是非常快的。马斯克表示,在接下来的几个月里,Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。



一位 X 用户指出,这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下,OpenAI 最强大的模型才使用了 80000 个 GPU。



Nvidia 的 H200 是市场上最抢手的芯片之一,尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下,H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽,Blackwell 的最高容量比 H200 高出 36.2%,总带宽高出 66.7%。


Nvidia 在 Colossus 发布后向马斯克和 xAI 团队表示祝贺。它还强调,Colossus 将是性能最强大的产品,并且在能源效率方面将有“显著提升”。


风险投资公司 ARK Invest 的首席执行官 Cathie Wood 也对该团队取得的成就表示祝贺,称其“令人印象深刻”,并表示“未来还会有重大公告”。


2023 年 4 月,有广泛报道称马斯克正在购买大量 GPU,一些消息来源报道称他打算购买多达近 10,000 个 GPU,以推进他的 xAI 项目。


在当前的人工智能淘金热中,包括微软、谷歌、亚马逊在内的多家重量级科技公司正与马斯克一道竞相采购英伟达备受青睐的 Hopper 系列人工智能芯片。马斯克也是英伟达的重要客户,其承诺今年仅用于特斯拉的英伟达硬件就要投资 30 至 40 亿美元。


孟菲斯集群将主要用来训练马斯克的 Grok-3。他在 7 月份表示,“我们希望在 12 月之前发布 Grok-3,到那时 Grok-3 应该会成为世界上最强大的人工智能。”Grok-2 的早期测试版上个月刚刚向用户推出 。


2024-09-11 17:036373

评论 1 条评论

发布
用户头像
《英伟达财报惊人!H200、GB200、Blackwell 齐发力!》

💥英伟达财报来袭!FY25Q2 持续高增长💥
👉FY25Q2 收入 300.40 亿美元,同比增长 122%,环比增长 15%!
👉数据中心业务收入 262.72 亿美元,同比增长 154%,环比增长 16%!
🎈预计 FY2025Q3 将实现收入 325 亿美元,毛利率 75%。
💻H200 平台在 2024Q2 开始向客户发货,Hopper 出货量 2024H2 持续增长。
🌟Blackwell 延迟影响有限,看好其在 2025 年的放量趋#服务器[超话]#势,2024Q4 预计实现数十亿美元收入。
🤖GB200 服务器 2024Q4 开始小批量出货,2025Q1 有望放量,后续产品周期有望加速,设计缺陷导致的延迟出货影响已基本消除。

#英伟达 #GPU#AI#H200#GB200#Blackwell#GPU算力
展开
2024-09-26 19:54 · 北京
回复
没有更多了

「Go工具箱」推荐一个轻量级、语义化的时间处理库:carbon

Go学堂

golang 开源 程序员 carbon 日期时间转换

浪潮信息工程师:谈一谈设备透传虚拟机启动慢背后的原因及其优化方法 | 第 51 期

OpenAnolis小助手

Linux 系统运维 内核 龙蜥大讲堂 浪潮

Paddle Graph Learning (PGL)图学习之图游走类node2vec模型[系列四]

汀丶人工智能

图神经网络 11月月更

火山引擎 DataTester 首推A/B实验经验库,帮助企业高效优化实验设计能力

字节跳动数据平台

大数据 A/B测试

这可能是你需要的React实战技巧

夏天的味道123

React

vue的几个提效技巧

yyds2026

Vue

多视角碰撞,探索 Serverless 企业落地更多可能性丨阿里云用户组厦门站

云布道师

阿里云 云原生

OKR之剑·实战篇03:OKR的跟踪需要有“自己”的节奏

vivo互联网技术

团队管理 OKR 目标管理

通俗易懂的React事件系统工作原理

夏天的味道123

React

微博:公布热搜算法!

博文视点Broadview

彻底搞懂Vue虚拟Dom和diff算法

yyds2026

Vue

读懂React原理之调和与Fiber

xiaofeng

React

虚拟机、沙箱和容器之间的区别

Onegun

容器 虚拟机 沙箱

聊聊Vuex原理

yyds2026

Vue

数据库独角兽SingleStore:没有HTAP,机器学习和人工智能都是不切实际的

StoneDB

数据库 开源 HTAP StoneDB SingleStore

6个步骤强化 CI/CD 安全

SEAL安全

技术界中的虚拟机、容器和沙箱的关系

FinFish

容器 虚拟机 安全沙箱

【LeetCode】字符串相加Java题解

Albert

算法 LeetCode 11月月更

React源码解读之任务调度

flyzz177

React

React源码解读之React Fiber

flyzz177

React

移动前端的安全管理方案

Onegun

前端 安全

使用EasyCV Mask2Former轻松实现图像分割

阿里云大数据AI技术

深度学习 计算机视觉 图像处理 图像分割 企业号十月 PK 榜

HummerRisk V0.5.1 发布:新增对象存储、优化K8s 资源态势和资源拓扑等

HummerCloud

Kubernetes 云原生 云安全 云原生安全

查看、校验、归档…带你掌握openGauss账本数据库

华为云开发者联盟

数据库 后端 华为云

React核心技术浅析

夏天的味道123

React

React-diff原理及应用

xiaofeng

React

React-Hook最佳实践

xiaofeng

React

测试大咖漫谈如何搞定软件质量?

测吧(北京)科技有限公司

软件测试

华为云Astro的前世今生:用7年时间革新低代码开发观念

华为云开发者联盟

低代码 华为云

计算机网络:以太网与IEEE 802.3

timerring

计算机网络 11月月更

count(*)查询性能很差?用这5招轻松优化

小小怪下士

Java 程序员 后端

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加10万个_AI&大模型_褚杏娟_InfoQ精选文章