QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

DeepSeek 开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡

  • 2025-02-25
    北京
  • 本文字数:832 字

    阅读完需:约 3 分钟

大小:429.51K时长:02:26
DeepSeek开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡

DeepSeek 开源周第二日,DeepSeek 发布来了 DeepEP,这是一个专为混合专家模型(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它的特点是:

 

  • 高效通信:提供了高吞吐量、低延迟的 GPU 通信功能(比如 MoE 中的分发和组合操作),还支持低精度计算(比如 FP8)。

  • 优化带宽:针对 DeepSeek-V3 论文中的算法,优化了数据在不同硬件域(比如 NVLink 到 RDMA)之间的传输,适合训练和推理任务,还能控制 GPU 资源(SM)的使用。

  • 低延迟推理:对推理任务特别优化,使用纯 RDMA 通信来减少延迟,还支持通信和计算重叠的技术,不占用额外 GPU 资源。



具体来讲,为了与 DeepSeek-V3 论文中提出的组限门控算法(group-limited gating algorithm)保持一致,DeepEP 提供了一组针对非对称域带宽转发优化的内核,例如从 NVLink 域转发数据到 RDMA 域。

 

DeepSeek 在 H800 这种硬件设备上(NVLink 数据传输通道最大传输速度约每秒 160GB)测试那些常规的内核程序。每一个 H800 设备都连接了一张 CX7 InfiniBand 型号的 400 Gb/s 的 RDMA 网卡(每卡最大传输速度每秒约 50GB)。


 

再按照 DeepSeek-V3/R1 这个预训练的方案来操作(每次处理数据批次里有 4096 个数据单元,隐藏层有 7168 个节点,分组是取前 4 组,专家模块选前 8 个,用 FP8 格式来分配数据,用 BF16 格式来整合数据 )。

在 H800 上对低延迟内核进行测试时,每台 H800 都连接着一块 CX7 InfiniBand 400 Gb/s 的 RDMA 网卡(最大带宽约为 50 GB/s)。遵循 DeepSeek - V3/R1 的典型生产环境设置(每批次 128 个词元、7168 个隐藏单元、前 8 个专家、FP8 调度和 BF16 合并)。


 

值得一提的是,DeepSeek 还在 GitHub 上构建了单独的一个库,用于放置他们本周发布的所有开源库,项目地址:https://github.com/deepseek-ai/open-infra-index

 

目前,DeepEP 需要的软硬件环境版本如下:

 

  • Hopper GPUs(以后可能支持更多架构或设备)

  • 用于节点内通信的 NVLink

  • 用于节点内通信的 RDMA 网络

  • Python 3.8 及更高版本

  • CUDA 12.3 及更高版本

  • PyTorch 2.1 及更高版本

2025-02-25 14:126
用户头像
李冬梅 加V:busulishang4668

发布了 1015 篇内容, 共 626.7 次阅读, 收获喜欢 1182 次。

关注

评论

发布
暂无评论

每月赚17.6 万美元的独立开发者,程序员做独立开发的最佳成功案例,免费送独立开发手册

陆通

智能网联化是汽车产业未来演进的重要方向

芯盾时代

车联网 物联网 汽车互联

Flink State 状态原理解析

京东科技开发者

不写一行代码,通义灵码 5 分钟“手撕”年会抽奖程序

阿里云云效

阿里云 云原生

一文让你通俗易懂信息安全与数据安全的区别

行云管家

网络安全 信息安全 数据安全 数字智能

使用华为云X实例部署图数据库Virtuoso并存储6500万条大数据的完整过程与性能测评

平平无奇爱好科技

华为云Flexus X实例docker部署Jitsi构建属于自己的音视频会议系统

YG科技

Word 2021 LTSC for Mac(office办公软件)中文版

Mac相关知识分享

Microsoft Remote Desktop Beta for Mac(微软远程连接工具)

Mac相关知识分享

【FAQ】HarmonyOS SDK 闭源开放能力 — IAP Kit(4)

HarmonyOS SDK

harmoyos

智慧巡检平台(源码+文档+部署+讲解)

深圳亥时科技

【送礼品】诚邀体验SoFlu-JavaAl开发助手,重塑AI编码价值

飞算JavaAI开发助手

程序员 开发工具 Java. AI编程

启用声明式 DNS 只需一个 POST

NGINX开源社区

post DNS nginx 开源版 NGINX PLUS

神奇的云管理-企业玩转云端的魔法棒

行云管家

云计算 云管平台 云管理

Newtonsoft.Json/Json.NET:如何处理序列化时的意外错误

代码忍者

浅谈SQL优化小技巧

京东科技开发者

指标平台与BI:区别、联系及协同

Aloudata

数据分析 指标管理 指标平台 指标开发 指标定义

SmartSVN for Mac(SVN客户端)

Mac相关知识分享

Kafka核心逻辑介绍

京东科技开发者

中关村科技企业党建与发展大会:星辰天合 CEO 胥昕畅谈专精特新之路

XSKY星辰天合

Real-Time Streaming Made Easy with QCN9074 WiFi 6E Module

wallyslilly

SecureCRT for mac(终端模拟软件)

Mac相关知识分享

超值选择:阿里云Elasticsearch Serverless在企业数据检索与分析中的高性能与灵活性

阿里云大数据AI技术

大数据 elasticsearch 阿里云 Serverless 云原生

食品派送管理平台(源码+文档+部署+讲解)

深圳亥时科技

【教程】第十二章 会议室预约管理

NocoBase

开源 项目管理 低代码 教程 无代码

利用 AI 获得 130% 超额收益

俞凡

人工智能 投资

小白必看 HarmonyOS Next HMRouter 轻松上手秘籍

万少

鸿蒙

App Uninstaller for Mac(mac软件卸载工具)

Mac相关知识分享

时间轮在 Netty , Kafka 中的设计与实现

bin的技术小屋

kafka Netty Java.

服务区智慧管理系统(源码+文档+部署+讲解)

深圳亥时科技

5分钟搞懂微服务架构治理

俞凡

架构 可观测性

DeepSeek开源周第二日:定制 MoE 与 EP 通信库单挑同行,暂仅支持英伟达卡_生成式 AI_李冬梅_InfoQ精选文章