速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

万卡万 P 万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC 专题报道

  • 2024-07-05
    北京
  • 本文字数:2336 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
万卡万P万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC专题报道

7 月 3 日,摩尔线程重磅宣布其 AI 旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。摩尔线程夸娥(KUAE)万卡智算集群,以全功能 GPU 为底座,旨在打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。

 

 

摩尔线程创始人兼 CEO 张建中表示:“当前,我们正处在生成式人工智能的黄金时代,技术交织催动智能涌现,GPU 成为加速新技术浪潮来临的创新引擎。摩尔线程矢志投身于这一历史性的创造进程,致力于向全球提供加速计算的基础设施和一站式解决方案,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。夸娥万卡智算集群作为摩尔线程全栈 AI 战略的一块重要拼图,可为各行各业数智化转型提供澎湃算力,不仅有力彰显了摩尔线程在技术创新和工程实践上的实力,更将成为推动 AI 产业发展的新起点。” 

AI 主战场,万卡通用算力是标配

大模型自问世以来,关于其未来的走向和发展趋势亟待时间验证,但从当前来看,几种演进趋势值得关注,使得其对算力的核心需求也愈发明晰。

 

首先,Scaling Law 将持续奏效。Scaling Law 自 2020 年提出以来,已揭示了大模型发展背后的“暴力美学”,即通过算力、算法、数据的深度融合与经验积累,实现模型性能的飞跃,这也成为业界公认的将持续影响未来大模型的发展趋势。Scaling Law 将持续奏效,需要单点规模够大并且通用的算力才能快速跟上技术演进。

 

其次,Transformer 架构不能实现大一统,和其他架构会持续演进并共存,形成多元化的技术生态。生成式 AI 的进化并非仅依赖于规模的简单膨胀,技术架构的革新同样至关重要。Transformer 架构虽然是当前主流,但新兴架构如 Mamba、RWKV 和 RetNet 等不断刷新计算效率,加快创新速度。随着技术迭代与演进,Transformer 架构并不能实现大一统,从稠密到稀疏模型,再到多模态模型的融合,技术的进步都展现了对更高性能计算资源的渴望。

 

与此同时,AI、3D 和 HPC 跨技术与跨领域融合不断加速,推动着空间智能、物理 AI 和 AI 4Science、世界模型等领域的边界拓展,使得大模型的训练和应用环境更加复杂多元,市场对于能够支持 AI+3D、AI+物理仿真、AI+科学计算等多元计算融合发展的通用加速计算平台的需求日益迫切。

 

多元趋势下,AI 模型训练的主战场,万卡已是标配。随着计算量不断攀升,大模型训练亟需超级工厂,即一个“大且通用”的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。当前,国际科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。

 

然而,构建万卡集群并非一万张 GPU 卡的简单堆叠,而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。这是难而正确的事情,摩尔线程希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。


夸娥:国产万卡万 P 万亿大模型训练平台


夸娥(KUAE)是摩尔线程智算中心全栈解决方案,是以全功能 GPU 为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

 

基于对 AI 算力需求的深刻洞察和前瞻性布局,摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展,旨在满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求。

 


夸娥万卡智算解决方案具备多个核心特性:

  • 超大算力,万卡万 P:在集群计算性能方面,全新一代夸娥智算集群实现单集群规模超万卡,浮点运算能力达到 10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。同时,在 GPU 显存和传输带宽方面,夸娥万卡集群达到 PB 级的超大显存总容量、每秒 PB 级的超高速卡间互联总带宽和每秒 PB 级超高速节点互联总带宽,实现算力、显存和带宽的系统性协同优化,全面提升集群计算性能。

  • 超高稳定,月级长稳训练:稳定性是衡量超万卡集群性能的关键。在集群稳定性方面,摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天,最长可实现大模型稳定训练 30 天以上,周均训练有效率在 99%以上,远超行业平均水平。这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测实现分钟级的故障定位,Checkpoint 多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

  • 极致优化,超高 MFU:MFU 是评估大模型训练效率的通用指标,可以直接反应端到端的集群训练效率。夸娥万卡集群在系统软件、框架、算法等层面一系列优化,实现大模型的高效率训练,MFU 最高可达到 60%。其中,在系统软件层面,基于极致的计算和通讯效率优化等技术手段,大幅提升集群的执行效率和性能表现。在框架和算法层面,夸娥万卡集群支持多种自适应混合并行策略与高效显存优化等,可以根据应用负载选择并自动配置最优的并行策略,大幅提升训练效率和显存利用。同时,针对超长序列大模型,夸娥万卡集群通过 CP 并行、RingAttention 等优化技术,有效缩减计算时间和显存占用,大幅提升集群训练效率。

  • 全能通用,生态友好:夸娥万卡集群是一个通用加速计算平台,计算能力为通用场景设计,可加速 LLM、MoE、多模态、Mamba 等不同架构、不同模态的大模型。同时,基于高效易用的 MUSA 编程语言、完整兼容 CUDA 能力和自动化迁移工具 Musify,加速新模型“Day0”级迁移,实现生态适配“Instant On”,助力客户业务快速上线。 

2024-07-05 00:325154
用户头像
李冬梅 加V:busulishang4668

发布了 960 篇内容, 共 556.9 次阅读, 收获喜欢 1119 次。

关注

评论

发布
暂无评论
发现更多内容

武汉Java培训哪家靠谱

小谷哥

美图SRE:一次线上大事故,我悟出了故障治理的3步9招

TakinTalks稳定性社区

故障 SRE实践

2022年,移动应用行业有哪些值得关注的技术趋势?

最新动态

Flink 引擎

孤衫

大数据 flink 9月月更

哪款去水印工具好用?6款热门在线去水印工具对比评测

少油少糖八分饱

图片去水印 去水印 水印 水印消除

原生实现异步处理利器 —— Observable

掘金安东尼

前端 9月月更

北京UI设计学校怎么选?

小谷哥

音视频开发成长之路与音视频知识点总结

C++后台开发

WebRTC ffmpeg 音视频开发 流媒体服务器开发 嵌入式音视频开发

优雅的MVC思想

叫练

2022年汽车智能座舱市场分析

易观分析

汽车 智能座舱

状态监测与故障智能诊断技术在能源动力机械内燃机的应用

PreMaint

设备预测性维护 设备状态监测 内燃机状态监测 内燃机故障诊断 设备故障诊断

设计模式简要介绍

六月的雨在InfoQ

Java 设计模式 单例模式 23种设计模式 9月月更

【9.9-9.16】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

关于iPhone 14 Pro 的灵动岛设计的思考

宇宙之一粟

iphone 思考 设计 9月月更

低代码平台选型6大能力:品牌/产品/技术/服务/安全/价值

优秀

低代码平台

出海人反脆弱,那些遭遇「刺客」突袭的虐心瞬间

融云 RongCloud

白皮书 程序员、

自动化测试如何区分用例集合

老张

自动化测试 测试用例

Sophon AutoCV Q&A大放送:如何加速视觉模型生产和落地(上篇)

星环科技

上海大数据培训机构哪家好?

小谷哥

阿里P6到P9的技术栈有哪些?Java程序员该如何准备学习?

收到请回复

Java 云计算 开源 架构 编程语言

大数据体系和SQL

孤衫

大数据 后端 sql 9月月更

阿里云弹性计算SRE实践:亿级调用量下的预警治理

TakinTalks稳定性社区

预警 告警体系 监控治理 SRE实践

金九银十!100页6W字Java面试题,去大厂面试的程序员都说被问到过!

收到请回复

Java 云计算 开源 架构 编程语言

禅道的Bug管理流程介绍

禅道项目管理

测试 禅道 bug管理

UI设计培训主要学习内容是哪些

小谷哥

关于 NFTScan 支持以太坊合并(The Merge)的公告

NFT Research

以太坊 PoS

哪些人适合在Java培训机构学习

小谷哥

互联网大厂裁员30%,仍靠第3版Java多线程编程笔记成功逆袭大厂

程序知音

Java 多线程 多线程与高并发 java架构师 后端技术

JavaScript之面向对象

楠羽

JavaScript 笔记 9月月更

MobTech袤博科技接入全国SDK管理服务平台,共建数智安全生态 | 新闻速递

MobTech袤博科技

大数据 数据安全

5 大核心能力+1 套全局防护策略,星环科技 Defensor 构建企业数据安全护城河

星环科技

万卡万P万亿参数通用算力!摩尔线程夸娥智算中心再升级|WAIC专题报道_芯片&算力_李冬梅_InfoQ精选文章