QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

  • 2025-03-01
    北京
  • 本文字数:2679 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:43
不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

DeepSeek 文件系统背后的“王炸”到底是什么?

 

2 月 28 日,DeepSeek 开源周第五日迎来了 Fire-Flyer File System (3FS):一套基于现代 SSD 与 RDMA 网络全部带宽的并行文件系统。

 

按照官方的说法,3FS 专为应对 AI 训练和推理工作负载的挑战而设计,将为 DeepSeek 的数据访问全程加速。它以高吞吐、低延迟和强一致性为核心设计理念,为分布式应用开发者提供了一个简化的共享存储层。

 

在具体应用中,3FS 涵盖了从数据准备(将数据分析管线的输出组织成分层目录并高效管理海量中间结果)、数据加载(无需额外预取或洗牌数据集,支持跨节点随机访问训练样本)、检查点(提供并行高吞吐的检查点保存与重载)到推理阶段的 KVCache(为大规模语言模型推理提供高吞吐且容量更大的缓存)等多种关键环节。据悉,在 V3 与 R1 版本模型中,3FS 正是通过在这些环节的出色表现,大幅提升了训练与推理过程的效率与稳定性

 

为满足这些高负载需求,3FS 在架构设计上具备以下核心特性与优势:

  • 分离式架构:整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。

  • 强一致性:利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。

  • 文件接口:基于成熟的元数据服务与事务型键值存储(如 FoundationDB),提供通用而熟悉的文件 API,无需额外学习新协议。

 

性能表现方面,在一个由 180 个存储节点组成的大规模集群中(每节点含 2×200Gbps InfiniBand 网卡与 16 块 14TiB NVMe SSD),3FS 在同时运行训练任务的背景流量下,依然实现了约 6.6 TiB/s 的整体读取吞吐量



在大型 3FS 集群上进行读取压力测试的吞吐情况。

 

同时,其 GraySort 基准测试突破 3.66 TiB/分钟。在由 25 个存储节点和 50 个计算节点构成的集群上,3FS 通过两阶段(基于键前缀位的 Shuffle 分区 + 分区内排序)读取/写入数据,完成了对 110.5 TiB 数据、8192 个分区的排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/分钟。




在推理场景下,为优化大规模语言模型(LLM)的 KVCache 查找速度,3FS 提供了高吞吐、强一致性的数据访问能力,单个客户端节点峰值可达 40+ GiB/s,同时支持高效的垃圾回收操作。




DeepSeek 3FS 的项目地址:https://github.com/deepseek-ai/3FS

 

在 4 月 10-12 日将于北京举办的 Qcon 全球软件开发大会上,我们特别设置了【智能时代的存储架构】专题。该专题邀请了来自美团、百度、炎融、蚂蚁等专家,深入探讨深入探讨大模型引领的智能时代下,分布式存储如何与其互相促进,并更好地做出架构迭代、创新。

 

查看大会日程解锁更多精彩内容:https://qcon.infoq.cn/2025/beijing/track/1772

 

填补开源市场空白

 

目前,业界已有多款专为 AI 时代设计的存储系统,其中既有老牌厂商 DDN(DataDirect Networks),也涌现出像 VAST Data、Weka.io 等初创公司。

 

DDN 起源于 HPC 时代。当时,尽管 HPC 拥有强大的计算能力,但存储性能无法跟上需求。为此,DDN 开发了与 HPC 框架匹配并加速运行的存储技术。随着 AI 的崛起,DDN 也不断适应新挑战,成为支持大规模 AI 应用的关键技术。

 

值得一提的是,NVIDIA 也选择 DDN 来展示其基础设施能力,据DDN的说法,如今七年过去了,DDN 仍是 NVIDIA 内部唯一使用的数据存储技术,并广泛应用于 X 公司的 Colossus AI 集群和众多客户的 AI 应用中。但基于 DDN 的背景,它还是更偏向传统 HPC 存储,面向超算中心、AI 训练、金融等高性能存储需求。

 

根据 DeepSeek 的介绍,3FS 每个存储节点配备了 2×200Gbps InfiniBand 网卡,整体集群性能达到了 6.6TiB/s,特别是在实际业务场景中展现出的性能,使得单一集群的表现能够位居国内前列。同时,值得注意的是,DDN在今年 2 月推出了基于 Infinia 2.0 的存储平台的“重大更新”。

 

相较之下,虽然 WEKA 和 VAST 在技术上仍然是初创公司,但也受到了一些大模型明星公司的青睐。比如大模型六小虎中的月之暗面,采用的正是WEKA。通过与 WEKA 集成,并利用其 KVCache 技术,实现了高效的令牌缓存,极大地提升了数据处理的容量、速度和效率。

 


需要注意的是,上述这些公司提供的解决方案通常是商业级专用技术,而 3FS 的出现被部分业内人士视为“在开源层面填补了高性能并行文件系统的空白”。

 

针对 3FS 的开源,另一位匿名受访的资深存储技术专家也对 InfoQ 表示:“DeepSeek 的开源周肯定让不少人失眠,各种 AI Infra 基础架构都被陆续开源出来,向全球展示了中国企业在技术研发上的深厚积累和创新能力。3FS 的开源让大家直观地了解到分布式文件系统在大模型训练场景的作用,让业界意识到高性能文件系统已成为大模型训练不可或缺的一环。”

 

他进一步总结了 3FS 的几个特点:

 

其一是高性能。“单节点 40 GB/s 的读带宽基本上把网络性能压满,也达到了国际上一线品牌产品的性能指标。高性能全闪文件系统通常都能做到这个级别,IO500 榜单里也有不少集群能达到 TB/s 的总带宽。但幻方在 Infiniband 网络大规模集群组网时,还解决了拥塞问题,这一点非常了不起。”

 

其二是 AI 训练和推理的全流程优化。“AI 训练和推理的全流程优化,把业务和存储整合成一个基础平台,发挥出了存储的极致性能,给模型厂商和存储厂商提供了新的优化思路。”

 

其三是提供 KVCache 访问协议,在大规模 AI 推理场景下有优势。他指出 DeepSeek 的 KVCache 访问协议,提供了更具性价比的推理解决方案,对于业界来说是“一个很大的突破”。

 

把 KVCache 放到高性能分布式文件系统缓解了推理对显存容量的要求,把 KVCache 卸载到存储上,以存代算,可以节省算力出来支撑更多的计算任务。这推动了高性能文件系统在推理场景的落地,帮助存储厂商拓展了一个新的场景,对整个业界是影响非常大的事情

 

不过,该存储技术专家也提醒道,业界应理性看待 3FS,“高性能文件系统的使用和运维门槛相对较高,尤其是 3FS 这类专有的高性能文件系统,在充分理解它的工作原理前避免盲目跟进,毕竟不是所有公司都具备幻方的基础设施和人才储备。”

 

与此同时,JuiceFS 苏锐也从分布式文件系统与大模型训练的角度发表了看法。他指出,AI 业务涉及大量非结构化数据,包括文本、图像和视频等格式,同时企业还必须应对数据量的急剧增长。在这样的背景下,分布式文件系统成为 AI 训练中一项关键的存储技术

 

“3FS 是一个高性能并行文件系统,设计上它采用高性能 SSD 和高性能的 IB 网络,适合在数据中心部署,进行 LLM 需要的 IO 密集型的任务和计算密集型任务,如数据清洗和预训练。

对 IO 性能要求高的业务,提供结合 FUSE 和基于共享内存的异步 IO 的原生客户端,以获得接近内核客户端的性能。”苏锐说道。

 

2025-03-01 10:008793

评论

发布
暂无评论

频繁操作本地缓存导致YGC耗时过长

AI乔治

Java 架构 JVM GC

web worker的介绍和使用

程序那些事

多线程 Web Worker 异步模型 异步编程 web技术

小白学算法:买卖股票的最佳时机!

王磊

Java 算法

码农会锁,synchronized 对象头结构(mark-word、Klass Pointer)、指针压缩、锁竞争,源码解毒、深度分析!

小傅哥

小傅哥 虚拟机 synchronized mark-word Klass Pointer

第6周作业

饭桶

第6周学习总结

饭桶

《Maven实战》.pdf

田维常

程序员

架构师训练营第二周课后作业

天涯若海

极客大学架构师训练营

甲方日常 40

句子

工作 随笔杂谈 日常

分析和解决JAVA 内存泄露的实战例子

AI乔治

Java 架构 JVM 内存泄露

极客大学 - 架构师训练营 第六周

9527

gRPC服务注册发现及负载均衡的实现方案与源码解析

网管

负载均衡 gRPC etcd 服务注册与发现 Go 语言

企业级RPC框架zRPC

万俊峰Kevin

RPC microser Go 语言

快速掌握并发编程---线程池的原理和实战

田维常

程序员

直播带货大战在即:账号交易灰产猖獗

石头IT视角

天呐!价值2980元Java成神面试题竟在Github开源了

996小迁

Java 学习 架构 面试

架构师训练营作业:第五周

m

为产业AI去障:联想的边缘突破

脑极体

零基础IM开发入门(三):什么是IM系统的可靠性?

JackJiang

网络编程 即时通讯 IM

在阿里内部,做Java到金字塔顶端的人平时都如何学习源码?

小Q

Java 学习 架构 面试 程序猿

面试官:面对千万级、亿级流量怎么处理?

艾小仙

Java 缓存 分布式 高并发 中间件

通过GUI界面更改 Ubuntu 20 LTS apt 源为阿里云

jiangling500

ubuntu 阿里云 apt

当 TiDB 与 Flink 相结合:高效、易用的实时数仓

Apache Flink

flink #TiDB

Netty源码解析 -- 零拷贝机制与ByteBuf

binecy

Netty 源码剖析

Flink在窗口上应用函数-6-9

小知识点

scala 大数据 flink

数字“异化”生存

脑极体

阿里内部首发1000页涨薪面试宝典:Spring+SpringMVC+MyBatis框架整合开发实战

Java架构追梦

Java 源码 架构 面试 SSM框架

ConcurrentHashMap核心原理,彻底给整明白了

AI乔治

Java 架构 分布式 线程

极客大学 - 架构师训练营 第六周作业

9527

狼人杀背后的秘密,实时语音你不知道的那些事

anyRTC开发者

音视频 WebRTC 语音 RTC 安卓

真香!天天996进不去阿里?看5年苦逼程序猿怎么逆袭阿里P7

小Q

Java 学习 架构 面试 程序猿

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”_生成式 AI_罗燕珊_InfoQ精选文章