写点什么

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加 10 万个

  • 2024-09-11
    北京
  • 本文字数:759 字

    阅读完需:约 2 分钟

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加10万个

9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群,总共有 100000 个英伟达的 H100 GPU。


马斯克表示,他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地,因此 Colossus 的部署速度可以说是非常快的。马斯克表示,在接下来的几个月里,Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。



一位 X 用户指出,这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下,OpenAI 最强大的模型才使用了 80000 个 GPU。



Nvidia 的 H200 是市场上最抢手的芯片之一,尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下,H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽,Blackwell 的最高容量比 H200 高出 36.2%,总带宽高出 66.7%。


Nvidia 在 Colossus 发布后向马斯克和 xAI 团队表示祝贺。它还强调,Colossus 将是性能最强大的产品,并且在能源效率方面将有“显著提升”。


风险投资公司 ARK Invest 的首席执行官 Cathie Wood 也对该团队取得的成就表示祝贺,称其“令人印象深刻”,并表示“未来还会有重大公告”。


2023 年 4 月,有广泛报道称马斯克正在购买大量 GPU,一些消息来源报道称他打算购买多达近 10,000 个 GPU,以推进他的 xAI 项目。


在当前的人工智能淘金热中,包括微软、谷歌、亚马逊在内的多家重量级科技公司正与马斯克一道竞相采购英伟达备受青睐的 Hopper 系列人工智能芯片。马斯克也是英伟达的重要客户,其承诺今年仅用于特斯拉的英伟达硬件就要投资 30 至 40 亿美元。


孟菲斯集群将主要用来训练马斯克的 Grok-3。他在 7 月份表示,“我们希望在 12 月之前发布 Grok-3,到那时 Grok-3 应该会成为世界上最强大的人工智能。”Grok-2 的早期测试版上个月刚刚向用户推出 。


2024-09-11 17:036706

评论 1 条评论

发布
用户头像
《英伟达财报惊人!H200、GB200、Blackwell 齐发力!》

💥英伟达财报来袭!FY25Q2 持续高增长💥
👉FY25Q2 收入 300.40 亿美元,同比增长 122%,环比增长 15%!
👉数据中心业务收入 262.72 亿美元,同比增长 154%,环比增长 16%!
🎈预计 FY2025Q3 将实现收入 325 亿美元,毛利率 75%。
💻H200 平台在 2024Q2 开始向客户发货,Hopper 出货量 2024H2 持续增长。
🌟Blackwell 延迟影响有限,看好其在 2025 年的放量趋#服务器[超话]#势,2024Q4 预计实现数十亿美元收入。
🤖GB200 服务器 2024Q4 开始小批量出货,2025Q1 有望放量,后续产品周期有望加速,设计缺陷导致的延迟出货影响已基本消除。

#英伟达 #GPU#AI#H200#GB200#Blackwell#GPU算力
展开
2024-09-26 19:54 · 北京
回复
没有更多了
发现更多内容

14点自动化经验

FunTester

K8S集群中使用JDOS KMS服务对敏感数据安全加密

京东科技开发者

持续迭代:观测云的产品进化论

可观测技术

持续迭代

某个国外的真实XSS漏洞利用探寻

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 XSS 漏洞

Java智能之Spring AI:5分钟打造智能聊天模型的利器

快乐非自愿限量之名

Java 人工智能 spring AI

观测云突变告警,精准预测云原生的系统异常

观测云

云原生 监控告警

亚信安慧AntDB-T:使用Brin索引提升OLAP查询性能以及节省磁盘空间

亚信AntDB数据库

AntDB

邀请函 I 松下信息和望繁信科技邀您参加「数智时代下大数据应用的“道”与“术”」闭门会议

望繁信科技

大数据 数字化转型 解决方案 流程挖掘 流程智能

【原创】【深入浅出系列】之代码可读性

京东科技开发者

全栈监控:一目了然的 IT 管理

可观测技术

监控

总有坏人想爬我网站的数据,看我用这 10 招干他!

快乐非自愿限量之名

爬虫 网站

按需扩展,成本优化:灵活的服务配置

可观测技术

成本优化

解锁企业成功密码—商品计划的神奇力量

第七在线

易点天下KreadoAI爆款视频生成功能上新 解锁出海营销新路径

新消费日报

相聚中国香港,共赢智能未来!华为云邀您共赴 KubeCon China 2024

华为云原生团队

云计算 云原生 KubeCON AI 人工智能

Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升

StarRocks

Druid Pinterest

畅捷通基于Flink的实时数仓落地实践

Apache Flink

大数据 flink 实时数仓

JNPF快速开发平台让业务活起来

快乐非自愿限量之名

Elasticsearch Mapping类型修改

京东科技开发者

就一次!带你彻底搞懂CSRF攻击与防御

我再BUG界嘎嘎乱杀

黑客 网络安全 信息安全 CSRF 网安

vue前端自适应布局,一步到位所有自适应

不在线第一只蜗牛

Vue 前端

实用指南|在多云环境中部署向量数据库

Zilliz

大数据 向量数据库 LLM 大语言模型 AICG

JNPF快速开发平台赋能数字办公方式转变

不在线第一只蜗牛

低代码 数字化转型 数字化办公

共情财务业务一体化管理,成为企业合作伙伴的拥护者

智达方通

企业管理 企业转型 全面预算管理 财务管理 财务转型

从闪存普惠,到数字化普惠:极简全闪数据中心引发的变革

脑极体

AI

IPLC、IEPL与MPLS的对比分析

Ogcloud

MPLS 企业组网 企业网络 IPLC IEPL

Kubernetes 监控:观测云与 Prometheus CRD 的集成

可观测技术

Kubernetes

XIAOJUSURVEY重磅升级,推出图形化逻辑编排能力

XIAOJUSURVEY

开源 规则引擎 可视化编排 图形化编排 问卷逻辑

京东面试:说说CMS工作原理?

王磊

智源未来选择 TDengine Cloud,解锁高效能源管理

TDengine

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加10万个_AI&大模型_褚杏娟_InfoQ精选文章