昇腾 MindSpeed：分布式训练加速库的创新实践｜QCon北京

2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京盛大召开。此次大会以 “智能融合，引领未来” 为主题，汇聚各领域技术先锋与创新者，共同探讨行业发展新趋势。

华为高级工程师郑加利已确认出席，并发表题为《昇腾 MindSpeed：分布式训练加速库的创新实践与突破》的主题分享。大模型训练过程复杂，面临着模型参数量和计算量剧增、单卡计算能力不足、大规模集群计算复杂性增加等诸多挑战。在这样的背景下，昇腾 MindSpeed 分布式训练加速库通过多维度优化，有效提升了大模型训练效率。本次演讲中，郑加利将详细介绍其创新实践与突破。

郑加利主导了 MindSpeed 框架基础架构设计构建，推动大模型训练效率显著提升，还主导微软大模型训练框架 DeepSpeed 原生支持华为昇腾软件栈，拓展了昇腾生态兼容性。此外，他深度参与华为昇腾重点模型开发和客户项目攻关，多次荣获昇腾领域总裁嘉奖令。本次会议中，他的详细演讲内容如下：

演讲大纲：
大模型训练的趋势与挑战
模型规模与计算需求：大模型参数量与计算量呈指数级增长。
分布式训练的复杂性：大规模集群计算带来诸多挑战。
效率瓶颈：现有解决方案存在局限性。
业界加速套件
主流加速库的特点与不足：分析主流加速库的优势与短板。
昇腾 MindSpeed 的差异化优势：阐述昇腾 MindSpeed 相比其他加速库的独特优势。
MindSpeed 架构设计
整体架构概览：介绍 MindSpeed 的整体架构。
核心模块与功能：讲解 MindSpeed 的核心模块及其功能。
MindSpeed 优化策略
通信优化：采用高效通信协议与算法；分享通信性能提升案例。
内存优化：运用显存管理与优化技术；展示内存优化的实际效果。
计算优化：进行算法加速与硬件适配；点明计算效率提升的关键点。
并行优化：灵活组合并行策略并实践。
MindSpeed 的实战效果
性能提升案例：展示具体模型训练的加速效果。
效率提升：体现训练时间缩短与资源利用率提升。
行业应用：介绍 MindSpeed 在不同场景中的落地实践。
未来展望
昇腾 MindSpeed 的发展方向：展望 MindSpeed 未来的发展路径。
对大模型训练的持续支持与创新：阐述对大模型训练持续创新和支持的计划。
您认为，这样的技术在实践过程中有哪些痛点？
在此次演讲中提到的大部分技术点都属于使用场景广泛，成本较小。并行优化中会有一些优化点开发工作量相对较多。
演讲亮点：
显存优化中通过 BF16 与 FP32 数据格式同指数位的特点，共享显存地址，以节省显存开销，当前业界无此方案。
听众收益：
了解昇腾分布式训练加速库的一些前沿的技术和成果。
开拓一些新思路，用新想法解决大模型中的显存和通信耗时问题。

除此之外，本次大会还策划了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 680 元，详情可扫码或联系票务经理 18514549229 咨询。

创作场景

昇腾 MindSpeed：分布式训练加速库的创新实践｜QCon 北京