大模型“四虎”出山,亮相 4 月 QCon 北京。 了解详情
写点什么

DeepSeek 开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡

  • 2025-02-25
    北京
  • 本文字数:832 字

    阅读完需:约 3 分钟

大小:429.51K时长:02:26
DeepSeek开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡

DeepSeek 开源周第二日,DeepSeek 发布来了 DeepEP,这是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它的特点是:

 

  • 高效通信:提供了高吞吐量、低延迟的 GPU 通信功能(比如 MoE 中的分发和组合操作),还支持低精度计算(比如 FP8)。

  • 优化带宽:针对 DeepSeek-V3 论文中的算法,优化了数据在不同硬件域(比如 NVLink 到 RDMA)之间的传输,适合训练和推理任务,还能控制 GPU 资源(SM)的使用。

  • 低延迟推理:对推理任务特别优化,使用纯 RDMA 通信来减少延迟,还支持通信和计算重叠的技术,不占用额外 GPU 资源。



具体来讲,为了与 DeepSeek-V3 论文中提出的组限门控算法(group-limited gating algorithm)保持一致,DeepEP 提供了一组针对非对称域带宽转发优化的内核,例如从 NVLink 域转发数据到 RDMA 域。

 

DeepSeek 在 H800 这种硬件设备上(NVLink 数据传输通道最大传输速度约每秒 160GB)测试那些常规的内核程序。每一个 H800 设备都连接了一张 CX7 InfiniBand 型号的 400 Gb/s 的 RDMA 网卡(每卡最大传输速度每秒约 50GB)。


 

再按照 DeepSeek-V3/R1 这个预训练的方案来操作(每次处理数据批次里有 4096 个数据单元,隐藏层有 7168 个节点,分组是取前 4 组,专家模块选前 8 个,用 FP8 格式来分配数据,用 BF16 格式来整合数据 )。

在 H800 上对低延迟内核进行测试时,每台 H800 都连接着一块 CX7 InfiniBand 400 Gb/s 的 RDMA 网卡(最大带宽约为 50 GB/s)。遵循 DeepSeek - V3/R1 的典型生产环境设置(每批次 128 个词元、7168 个隐藏单元、前 8 个专家、FP8 调度和 BF16 合并)。


 

值得一提的是,DeepSeek 还在 GitHub 上构建了单独的一个库,用于放置他们本周发布的所有开源库,项目地址:https://github.com/deepseek-ai/open-infra-index

 

目前,DeepEP 需要的软硬件环境版本如下:

 

  • Hopper GPUs(以后可能支持更多架构或设备)

  • 用于节点内通信的 NVLink

  • 用于节点内通信的 RDMA 网络

  • Python 3.8 及更高版本

  • CUDA 12.3 及更高版本

  • PyTorch 2.1 及更高版本

2025-02-25 14:125446
用户头像
李冬梅 加V:busulishang4668

发布了 1030 篇内容, 共 644.5 次阅读, 收获喜欢 1196 次。

关注

评论

发布
暂无评论

快慢指针算法

工程师日月

算法 6月月更

利用 Repository 中的方法解决实际问题

Damon

6月月更

Nginx学习笔记总结:初次认识 Nginx

百思不得小赵

nginx 6月月更

基于STM32+华为云IOT设计的云平台监控系统

DS小龙哥

6月月更

Prometheus 2.33.0 新特性

耳东@Erdong

release Prometheus 6月月更

给 Angular 服务器端渲染应用设置一个渲染超时时间

汪子熙

typescript 前端开发 angular 前端框架 6月月更

不到40行代码手撸一个BlocProvider

岛上码农

flutter 前端 移动端开发 安卓开发 6月月更

TCP拥塞控制详解 | 1. 概述

俞凡

算法 网络 TCP拥塞控制

架构实战营毕业设计

KennyQ

gm

Java中的字符串之字符串常量池

未见花闻

6月月更

我的第一个Vue项目-Demo

Python研究所

6月月更

# 补齐短板-开源IM项目OpenIM关于初始化/登录/好友接口文档介绍

Geek_1ef48b

Fabric.js 上划线、中划线(删除线)、下划线

德育处主任

JavaScript canvas FabricJS 6月月更

国内首款开源 MySQL HTAP 数据库即将发布,三大看点提前告知

StoneDB

MySQL #数据库 #开源

Eureka注册信息配置备忘

程序员欣宸

Java Spring Cloud 6月月更

@Query 疑难杂症

Damon

6月月更

工作一年闲记

玄兴梦影

总结 工作 自我感悟

openLooKeng,一款面向海量、跨DC的大数据分析利器

乌龟哥哥

6月月更

一文带你学会consul 基本使用和Docker部署

迷彩

架构 Consul 服务注册与发现 微服务治理 6月月更

Tiger DAO VC产品正式上线,Seektiger生态的有力补充

股市老人

微博评论的高性能高可用计算架构

爱晒太阳的大白

Prometheus 2.34.0 新特性

耳东@Erdong

release Prometheus 6月月更

微服务之consul初体验

迷彩

微服务 中间件 Consul 微服务治理 6月月更

深度好文:什么是超网 Supernetting?

wljslmz

网络技术 6月月更 超网

请坚持正确佩戴口罩

IT蜗壳-Tango

6月月更

# 云原生训练营毕业总结

Neil43

云原生训练营

使用‘百家饭’自动生成API调用:JS部分进展(二)

百家饭隐私计算平台创业者

js OpenAPI 代码生成

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v8.2版已发布

JackJiang

网络编程 即时通讯 im开发 开源im

Scala 基础 (二):变量和数据类型

百思不得小赵

scala 大数据 6月月更

leetcode 300. Longest Increasing Subsequence 最长递增子序列 (中等)

okokabcd

动态规划 算法与数据结构 leetcoce

DeepSeek开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡_生成式 AI_李冬梅_InfoQ精选文章