写点什么

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1227 字

    阅读完需:约 4 分钟

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京盛大召开。此次大会以 “智能融合,引领未来” 为主题,汇聚各领域技术先锋与创新者,共同探讨行业发展新趋势。


华为高级工程师郑加利已确认出席,并发表题为《昇腾 MindSpeed:分布式训练加速库的创新实践与突破》的主题分享。大模型训练过程复杂,面临着模型参数量和计算量剧增、单卡计算能力不足、大规模集群计算复杂性增加等诸多挑战。在这样的背景下,昇腾 MindSpeed 分布式训练加速库通过多维度优化,有效提升了大模型训练效率。本次演讲中,郑加利将详细介绍其创新实践与突破。


郑加利主导了 MindSpeed 框架基础架构设计构建,推动大模型训练效率显著提升,还主导微软大模型训练框架 DeepSpeed 原生支持华为昇腾软件栈,拓展了昇腾生态兼容性。此外,他深度参与华为昇腾重点模型开发和客户项目攻关,多次荣获昇腾领域总裁嘉奖令。本次会议中,他的详细演讲内容如下:


演讲大纲:

大模型训练的趋势与挑战

  • 模型规模与计算需求:大模型参数量与计算量呈指数级增长。

  • 分布式训练的复杂性:大规模集群计算带来诸多挑战。

  • 效率瓶颈:现有解决方案存在局限性。

业界加速套件

  • 主流加速库的特点与不足:分析主流加速库的优势与短板。

  • 昇腾 MindSpeed 的差异化优势:阐述昇腾 MindSpeed 相比其他加速库的独特优势。

MindSpeed 架构设计

  • 整体架构概览:介绍 MindSpeed 的整体架构。

  • 核心模块与功能:讲解 MindSpeed 的核心模块及其功能。

MindSpeed 优化策略

  • 通信优化:采用高效通信协议与算法;分享通信性能提升案例。

  • 内存优化:运用显存管理与优化技术;展示内存优化的实际效果。

  • 计算优化:进行算法加速与硬件适配;点明计算效率提升的关键点。

  • 并行优化:灵活组合并行策略并实践。

MindSpeed 的实战效果

  • 性能提升案例:展示具体模型训练的加速效果。

  • 效率提升:体现训练时间缩短与资源利用率提升。

  • 行业应用:介绍 MindSpeed 在不同场景中的落地实践。

未来展望

  • 昇腾 MindSpeed 的发展方向:展望 MindSpeed 未来的发展路径。

  • 对大模型训练的持续支持与创新:阐述对大模型训练持续创新和支持的计划。


您认为,这样的技术在实践过程中有哪些痛点?

在此次演讲中提到的大部分技术点都属于使用场景广泛,成本较小。并行优化中会有一些优化点开发工作量相对较多。


演讲亮点:

显存优化中通过 BF16 与 FP32 数据格式同指数位的特点,共享显存地址,以节省显存开销,当前业界无此方案。


听众收益:

  1. 了解昇腾分布式训练加速库的一些前沿的技术和成果。

  2. 开拓一些新思路,用新想法解决大模型中的显存和通信耗时问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 23:373333

评论

发布
暂无评论

对话 CTO | 听快看漫画 CTO 李润超讲重塑漫画产业的技术推动力

ONES 王颖奇

研发管理 CTO 动画 文化

当前的经济形势,如何让自己免于风险?

鼎玉谷

JavaScript 学习笔记——数据类型

zjlulsum

Java 学习 大前端 类型推断 入门

放假了,你还会打开钉钉么?

Geek_6rptuk

高效工作 团队管理 企业文化 个人成长 技术管理

探寻融云多年领先的秘密:不断创新贴近开发者真实需求

DT极客

面试官竟然一直和我聊线程的启动和终止

Simon郎

Java 大数据 后端 多线程

【Howe 学 JAVA】Java 类集框架1——List集合

Howe

Java List 集合

《Linux就该这么学》笔记(一)

编程随想曲

Linux

每个人都应该知道的性能参数

ElvinYang

游戏夜读 | 游戏设计需要天赋?

game1night

C语言输入和输出

C语言技术网-码农有道

C语言 输入 输出

你还在这样使用MYSQL吗?

Geek_6rptuk

MySQL 数据库 数据库规范 数据库设计

办公人员的 python 妙用——抽签结果提取

小匚

Python 远程办公

【Howe 学 JAVA】Java 类集框架2——Set 集合

Howe

Java 集合 set

“随大流”的你是不会成功的

小天同学

个人成长 思考 写作平台 感悟 坚持

Using R for everything: 方差分解(Variation partition)变量筛选与显著性标注

洗衣机用户不会用洗衣机

数据分析 R

深入理解MDL元数据锁

Simon

MySQL

前端开发的瓶颈与未来之路

keelii

node.js typescript ruby-on-rails 编程 大前端

OceanBase原理与实现分析

ElvinYang

自助设备系列——技术应用

孙苏勇

产品 行业资讯 智能设备

给应届毕业生们的七点建议

Neco.W

大学生日常 工作 应届毕业

对话 CTO | 喜茶也有 CTO?听陈霈霖讲讲茶饮中的技术甜度

ONES 王颖奇

研发管理 CTO 零售

Python网络编程socket 简易聊天窗

Flychen

C语言常量、变量和关键字

C语言技术网-码农有道

C语言 常量 变量 关键字

工具集系列 02|还在为海报设计、LOGO 设计发愁?这些在线工具值得收藏

一尘观世界

效率工具 设计 海报 课程封面 知识付费

保险知识梳理

魁拔

保险 生活质量

C语言运算符

C语言技术网-码农有道

C语言 运算符

C语言if分支结构

C语言技术网-码农有道

C语言 C语言if分支结构

如何扩大我们的英语词汇量

董一凡

学习

高仿瑞幸小程序 06 layout布局

曾伟@喵先森

小程序 微信小程序 大前端

物联网资产整合架构

老任物联网杂谈

物联网架构

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京_华为_QCon全球软件开发大会_InfoQ精选文章