写点什么

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

  • 2025-02-27
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。


 

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

 


项目地址:https://github.com/deepseek-ai/DualPipe


接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。


项目地址:https://github.com/deepseek-ai/eplb


最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。分析数据是使用 PyTorch Profiler 捕获的,下载后可以通过导航到 Chrome 浏览器中的 chrome://tracing(或 Edge 浏览器中的 edge://tracing)来直接可视化它。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE (Mix of Experts) 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

 

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

 

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM:RDMA 消息发出后,所有 GPU SM 都会被释放,系统在计算完成后等待 all-to-all 通信完成。

 

项目地址:https://github.com/deepseek-ai/profile-data

 

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”“DeepSeek 的策略‘交响乐’可以重新定义我们构建人工智能的方式,证明不需要最大的乐队也能演奏出最好的曲子。”





2025-02-27 12:078724

评论

发布
暂无评论

Apache Flink ML 2.2.0 发布公告

Apache Flink

大数据 flink 实时计算

文本搜索工具ack与grep

坚果

Linux 三周年连更

天呐!我真的没想到推特GIF动图保存到手机相册竟然简单几步就能完成!

frank

twitter

Split to Be Slim: 论文复现

华为云开发者联盟

人工智能 华为云 论文 华为云开发者联盟 企业号 4 月 PK 榜

【FAQ】统一扫码服务常见问题及解答

HarmonyOS SDK

HMS Core

有道CEO周枫:当我们谈论大模型时,应该关注哪些新能力?

有道技术团队

Rust、Go 和 Swift 在性能和并发性方面有何差异?

非凸科技

Go swift 性能 编程语言 高并发

华为云GaussDB坚持技术引领,以数字化转型激活金融科技新动能

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

常用工具

流火

如何通过C#/VB.NET代码将PowerPoint转换为HTML

在下毛毛雨

html PowerPoint 文档转换

世优科技AI数字人产品“世优BOTA”发布!全面提升AI虚拟员工能力

联营汇聚

赋能开发者,开放原子全球开源峰会期待你的声音!

开放原子开源基金会

大数据 开源 开源软件

浅析低代码开发的典型应用构建场景

力软低代码开发平台

DevOps 与研发效能资深技术专家张乐:研发效能的升维思考与降维执行

万事ONES

FBEC大会 | 瑞云科技 CTO 赵志杰:元宇宙时代的基础设施——实时云渲染

3DCAT实时渲染

实时渲染 实时云渲染 实时渲染云

从零学习SDK(9)SDK的局限

MobTech袤博科技

编程中最难的就是命名?这几招教你快速上手

阿里巴巴云原生

阿里云 编程 云原生

AI数字人产品“世优BOTA”发布会落幕,世优科技纪智辉演讲回顾

联营汇聚

2023云数据库技术沙龙MySQL x ClickHouse专场成功举办

NineData

MySQL 腾讯云 阿里云 云数据库 技术沙龙

没有主机跑开源软件?速来牧云助手免费领一台!

百川云开发者

云计算 开源 云主机 教程 免费

Go 语言快速入门指南:GET 和 POST 方法

宇宙之一粟

Go HTTP post GET 三周年连更

为开发者搭建创新舞台 OpenHarmony创新赛正式启动

最新动态

上海首个大模型产业发展研讨会圆满落幕,众顶尖专家共探大模型产业

NLP资深玩家

技术干货|如何利用 ChunJun 实现数据实时同步?

袋鼠云数栈

开源 数据采集

手语识别:解锁语言交流的新时代

数据堂

大语言模型时代狂飙以来,到底是谁在让你失业|社区征文

小诚信驿站

三周年征文

为什么说网络安全行业是IT行业最后的红利?

网络安全学海

网络安全 安全 信息安全 渗透测试 WEB安全

如何雇佣一名全民开发者?

草料二维码

开发者 低代码 无代码开发 无代码 无代码微信小程序

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略_AI&大模型_华卫_InfoQ精选文章