R2被曝5月发布！DeepSeek刚刚开源专为FP8设计的DeepGEMM，核心内核代码仅300行！_芯片&算力_褚杏娟_InfoQ精选文章



 写点什么

登录/注册



大小：394.39K时长：02:14

R2被曝5月发布！DeepSeek刚刚开源专为FP8设计的DeepGEMM，核心内核代码仅300行！

报道称，DeepSeek 正在加速推出其 R2 人工智能模型，其最初计划在五月推出，但目前正在努力尽快推出。

而就在刚刚，DeepSeek 开源了 DeepGEMM，一个专为简洁高效的 FP8 通用矩阵乘法（GEMMs）设计的库，具有细粒度缩放功能（如 DeepSeek-V3 中提出的方案）。

该库采用 CUDA 编写，采用轻量级即时编译（JIT）模块，安装时无需编译（所有内核在运行时编译）。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

目前，DeepGEMM 仅支持 NVIDIA Hopper 张量核心，该库使用 CUDA 核心两级累加（promotion）（晋升）策略来解决 FP8 张量核心累加不精确问题。尽管 DeepGEMM 借鉴了 CUTLASS 和 CuTe 的一些理念，但避免了过度依赖模板或复杂的代数结构。该库设计简洁，仅包含一个核心内核函数，代码大约只有 300 行左右。

按照 CUTLASS 设计，DeepGEMM 中的内核经过了 warp 专门化，可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子，以及存储输出矩阵。

尽管设计轻量，DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

DeepSeek 在配备 NVCC 12.8 的 H800 计算卡上对 DeepSeek-V3/R1 推理流程（包含预填充和解码阶段，除了张量并行场景）可能涉及的所有矩阵形状进行全量测试，所有加速性能指标均基于 CUTLASS 3.6 深度优化的内部实现作为基准对比。DeepGEMM 在部分特定矩阵形状上的性能表现仍有提升空间。

“虽然 FP8 在生产中还处于相对早期阶段，但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们，这真是太酷了。”有网友评价。

使用要求：

Hopper 架构 GPU，sm_90a 必须支持

Python 3.8 或更高版本

CUDA 12.3 或更高版本（官方强烈建议使用 12.8 或更高版本）

PyTorch 2.1 或更高版本

CUTLASS 3.6 或更高版本（可以通过 Git 子模块克隆）

开源地址（MIT 许可证）：

https://github.com/deepseek-ai/DeepGEMM

评论

发布

暂无评论

PageObject（PO）设计模式在 UI 自动化中的实践总结（以 QQ 邮箱登陆为例）

霍格沃兹测试开发学社

如何选择靠谱的Java培训

2022年无糖茶饮料发展洞察分析

无糖茶行业洞察

Pb协议的接口测试

霍格沃兹测试开发学社

Python 自动化测试(三): pytest 参数化测试用例构建

霍格沃兹测试开发学社

node在大前端中的应用场景

大学毕业后如何选择大数据培训机构

JDK1.6中String类的坑，快让我裂开了…

华为云开发者联盟

授人为师，首期明道云零代码教练员研修班圆满结束

易观千帆 | 2022年7月苏州市手机银行应用活跃人数榜单

金融手机银行榜单苏州

前端高频面试题(四)（附答案）

helloworld1024fd

JavaScript 前端

开源治理：安全的关键

开源开源文化开源安全开源安全与治理

前端高频面试题(三)（附答案）

helloworld1024fd

JavaScript 前端

开源公开课丨ChengYing安装原理剖析

袋鼠云数栈

软件测试 | 测试开发 | app自动化测试之Appium 原理与 JsonWP 协议分析

测吧(北京)科技有限公司

Quick Tracking「全域采集与增长分析」，破局全域营销之道

瓴羊企业智能服务

Python 自动化测试(五): Pytest 结合 Allure 生成测试报告

霍格沃兹测试开发学社

成长计划校园极客秀 | 玩转OpenHarmony开发智能煤气检测系统

OpenHarmony开发者

企业应用现代化实用教程 | 微服务架构怎么选？Dubbo、Spring Cloud、Istio终极对决

微服务云原生 Spring Cloud istio Service Mesh (ASM)

UI设计培训班出来后找工作吗？

开源交流丨任务or实例详解大数据DAG调度系统Taier任务调度

袋鼠云数栈

5 个 JavaScript 写法小技巧分享

掘金安东尼

JavaScript 前端 8月月更

大数据培训机构学习后就业前景如何

同时将博客部署到github和conding

前端博客搭建 8月月更

【算法实践】他山之石,可以攻玉--利用完全二叉树快速实现堆排序

Python 数据结构算法二叉堆排序 8月月更

麦聪软件为云上客户提供DaaS服务，入驻国内Top3云市场

公有云私有云 DaaS数据即服务

深度解读|关于SBOM最基础元素，你需要知道的（Part III）

漏洞漏洞扫描代码安全 SBOM SBOM最基础元素

如何应对突发的流量激增和服务器过载问题

NGINX开源社区

nginx 流量控制高速缓存

Java培训需要多长时间

数字藏品系统开发：详细功能介绍

开源直播系统源码

NFT 数字藏品数字藏品系统软件开发 NFT数字藏品系统

分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率

华为云开发者联盟

云计算云原生