写点什么

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

  • 2024-10-30
    北京
  • 本文字数:972 字

    阅读完需:约 3 分钟

大小:479.50K时长:02:43
NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

2024 年 10 月 28 日,NVIDIA 宣布 xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。

 

Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练马斯克 xAI 的 Grok 系列大语言模型,以及作为 X Premium 用户功能之一的聊天机器人(Chatbot)。xAI 正在将 Colossus 的规模进一步扩大一倍至 20 万颗 NVIDIA HopperGPU。

 

据介绍,在训练 Grok 这种超大型模型时,Colossus 实现了空前的网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借 Spectrum-X 先进的拥塞控制功能,系统数据吞吐量一直保持在 95%。这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供 60% 的数据吞吐量。

 

Spectrum-X 平台的核心是 Spectrum SN5600 以太网交换机,支持高达 800Gb/s 的端口速度,采用了 Spectrum-4 交换机 ASIC。xAI 采用了 Spectrum-X SN5600 交换机与 NVIDIA BlueField-3® SuperNIC 的端到端解决方案,以此实现了高性能。

 

专门面向 AI 的 Spectrum-X 以太网网络可在提供高效、可扩展带宽的同时,实现低延迟和短尾延迟,这些功能之前是 InfiniBand 网络所独有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了 AI 网络的可视性和性能隔离,所有这些功能都是多租户生成式 AI 云和大型企业应用环境的关键要求。

 

xAI 和 NVIDIA 仅用了 122 天就建成了所有配套设施和这台最先进的超级计算机,从第一个机架落地到开始训练任务,只用了 19 天。而建造这种规模的系统通常需要数月乃至数年的时间。“Colossus 是世界上最强大的训练系统。xAI 团队、NVIDIA 和我们的众多合作伙伴及供应商干得漂亮。”埃隆·马斯克在 X 上说道。

 

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“AI 正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的创新企业提供更快的处理、分析和执行 AI 工作负载的速度,进而加速 AI 解决方案的开发、部署和上市。”


2024-10-30 09:245104

评论

发布
暂无评论
发现更多内容

互相讨厌的奥运与气候

脑极体

菜鸡学习python

Augus

8月日更

使用PSI(Pressure Stall Information)监控服务器资源

mazhen

Linux DevOps Linux Kenel linux运维

八月未央,早睡早起

escray

读书笔记 8月日更

kubernetes/k8s CRI 分析 - 容器运行时接口分析

良凯尔

Kubernetes 源码分析 Kubernetes Plugin #Kubernetes# cri-o

Web 身份验证:Cookie 与 令牌

devpoint

Cookie 8月日更

异常机制的概述

程序员阿杜

Java 8月日更

渣男已经预订大碗牢饭,“科技渣男”怎么还在疯狂套路?

白洞计划

01 设计模式之单例模式

陈皮的JavaLib

设计模式 单例模式 8月日更

docker个人理解与安装

小鲍侃java

8月日更

恐惧和自我偏见 -- 成长的最大障碍

俞凡

认知

中大型组织 DevOps 成熟度模型设计

Phodal

DevOps thoughtworks phodal

架构实战营-毕业总结

大可

架构师实战营 模块九作业(设计电商秒杀系统)

代廉洁

架构实战营

带你全面了解 Git 系列 02 - 常用 Git 技巧

淼💦 淼

git GitHub

【Flutter 专题】131 图解 AnimatedList 动画列表

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

Vue进阶(幺柒幺):前端用户体验提升(五)Flex实现弹性布局

No Silver Bullet

Vue Flex 8月日更

Spring 源码解析 -- SpringWeb过滤器Filter解析

Java spring 源码阅读

架构训练营模块 2 作业 - 学生信息管理系统的架构文档 - 江哲

江哲

gopher成长之路(二):听万俊峰老师演讲有感

非晓为骁

学习 个人成长 gopher

🏆【Java技术之旅】教你如何使用异步神器CompletableFuture

洛神灬殇

Java 异步编程 8月日更 CompetableFuture

爱你的人,会管着你。而不是惯着你。

石云升

娱乐圈 8月日更 刑法

Cobra 快速入门 - 专为命令行程序而生

xcbeyond

cobra Go 语言 8月日更

01-架构的定义

Lane

Java中的JVM是如何实现多线程的?

程序员阿杜

Java JVM 多线程 8月日更

如何做分库分表,常见方案汇总

架构精进之路

MySQL 分库分表 8月日更

十大排序算法--冒泡排序

Ayue、

排序算法 8月日更

Numpy 常用数据结构和清理函数

若尘

Numpy 数据清洗 Python编程 8月日更

Java 代理模式

gin

Java 代理 Proxy

Vue进阶(幺捌零):JS 向 Vue 传值

No Silver Bullet

Vue 8月日更

Python 数值中的下划线是怎么回事?

Python猫

Python

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机_AI&大模型_褚杏娟_InfoQ精选文章