报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

DeepSeek 开源周首日:先让 GPU 飞起来

  • 2025-02-24
    北京
  • 本文字数:765 字

    阅读完需:约 3 分钟

大小:382.79K时长:02:10
DeepSeek开源周首日:先让GPU飞起来

刚刚,DeepSeek 发布了第一个开源存储库,目前已获超 800 Star。

 

据介绍,FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化,要求是 Hopper GPU、CUDA 12.3 及更高版本及 PyTorch 2.0 及更高版本。


 

项目地址:https://github.com/deepseek-ai/FlashMLA

 

FlashMLA 的主要特性是:

 

  • BF16 支持:FlashMLA 支持 BF16(Bfloat16)数据类型,这使得它在计算和内存使用上更加高效。

  • 分页 KV 缓存:通过分页机制管理键值(KV)缓存,块大小为 64,这使得它能够高效处理大规模序列。

  • 高性能:在搭载 CUDA 12.6 的 H800 SXM5 上,在受内存限制的配置下可实现高达 3000 GB/秒的速度,在受计算能力限制的配置下可达到 580 万亿次浮点运算每秒(TFLOPS)。 

 

FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。cutlass 是一个 CUDA C++ 模板抽象集合,用于在 CUDA 内的所有级别和规模上实现高性能矩阵-矩阵乘法(GEMM)和相关计算。它采用了分层分解和数据移动策略,与用于实现 cuBLAS 和 cuDNN 的策略类似。


cutlass 将这些 “移动部件 ”分解为由 C++ 模板类抽象出来的可重用模块化软件组件。概念并行化层次结构中不同层次的原语可以通过自定义平铺尺寸、数据类型和其他算法策略进行专门化和调整。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建模块的使用。


 

另值得一提的是,MLA(Multi-Head Latent Attention,多头潜在注意力机制 )是 DeepSeek 模型低成本训练的一个关键技术,即 DeepSeek 在 DeepSeek-V2 模型和 DeepSeek-V3 模型中用于高效推理的核心注意力机制,通过低秩联合压缩技术, 减少了推理时的键值(KV)缓存,从而在保持性能的同时显著降低了内存占用。

 




在 X 上,一条关于“DeepSeek 开源周的第一天你期待他们发布什么”的投票引发诸多讨论,其中呼声最高的选项是希望 DeepSeek 在第一天就可以开源一款网页搜索产品。



2025-02-24 11:406300

评论

发布
暂无评论

TiDB 冷热存储分离解决方案

TiDB 社区干货传送门

管理与运维 版本测评 6.x 实践 大数据场景实践

排查分析Empty regions 较大原因

TiDB 社区干货传送门

性能调优 实践案例 集群管理 管理与运维

一次 TiDB 5.1 Write Stall 问题处理

TiDB 社区干货传送门

故障排查/诊断

TiDB 6.0 新特性解读 | Collation 规则

TiDB 社区干货传送门

6.x 实践

体验 TiDB v6.0.0 之 Clinic

TiDB 社区干货传送门

实践案例 6.x 实践

Let's go, TiCheck!

TiDB 社区干货传送门

监控

初体验之rawkv learner recover灾备切换

TiDB 社区干货传送门

我和tidb 的故事 - 我们终会在平行世界相遇

TiDB 社区干货传送门

TiDB 6.0 新特性解读 | 离线包变更

TiDB 社区干货传送门

6.x 实践

TiDB 6.0 Book Rush | TiDB 和 Python 的 CRUD 应用开发实践

TiDB 社区干货传送门

6.x 实践

一篇文章说透缓存表

TiDB 社区干货传送门

TiDB 源码解读 新版本/特性解读 6.x 实践

论分布式数据库TiDB架构的“存”与“算”

TiDB 社区干货传送门

数据库架构设计

6.0体验:TiKV 重启后 Leader 均衡加速

TiDB 社区干货传送门

管理与运维 新版本/特性解读 6.x 实践

TiFlash 源码阅读(一) TiFlash 存储层概览

TiDB 社区干货传送门

TiDB v6.0.0(DMR) 缓存表初试

TiDB 社区干货传送门

6.x 实践

MVCC导致limit 1执行慢测试

TiDB 社区干货传送门

实践案例 管理与运维 性能测评

TiDB 6.0 Placement Rules In SQL 使用实践

TiDB 社区干货传送门

管理与运维 版本测评 新版本/特性解读 6.x 实践

用一个性能提升了666倍的小案例说明在TiDB中正确使用索引的重要性

TiDB 社区干货传送门

性能调优 实践案例 应用适配

TiDB Lightning在数据迁移中的应用与错误处理实践

TiDB 社区干货传送门

迁移 管理与运维 6.x 实践

TiEM初级实践

TiDB 社区干货传送门

6.x 实践

体验 TiDB v6.0.0 之 TiDB 的数据迁移工具 DM-WebUI

TiDB 社区干货传送门

实践案例 6.x 实践

TiDB 集群一次诡异的写入慢问题排查经历

TiDB 社区干货传送门

故障排查/诊断

文盘Rust -- 领域交互模式如何实现

TiDB 社区干货传送门

开发语言

内存悲观锁原理浅析与实践

TiDB 社区干货传送门

版本测评 新版本/特性解读 6.x 实践 TiKV 底层架构

TiDB 4.0 升级 5.1 二三事——避坑指南

TiDB 社区干货传送门

版本升级

体验TiDB v6.0.0 之TiCDC

TiDB 社区干货传送门

实践案例 6.x 实践

TiDB 6.0 新特性解读 | TiFlash 新增算子和函数下推

TiDB 社区干货传送门

6.x 实践

TiDB 5.1 Write Stalls 应急文档

TiDB 社区干货传送门

实践案例

TiDB 生态工具 -- TiUniManager(原 TiEM)v1.0.0 体验

TiDB 社区干货传送门

6.x 实践

关于HTAP与HSAP

TiDB 社区干货传送门

数据库架构设计

TiCDC系列分享-01-简述产生背景及使用概况

TiDB 社区干货传送门

迁移 安装 & 部署 扩/缩容 应用适配 大数据场景实践

DeepSeek开源周首日:先让GPU飞起来_生成式 AI_华卫_InfoQ精选文章