QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京

  • 2025-03-30
    北京
  • 本文字数:1369 字

    阅读完需:约 4 分钟

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


焱融科技 CTO 张文涛已确认出席并发表题为《高性能全闪并行文件系统的设计和实践》的主题分享。在深度学习领域中,数据是基⽯,算⼒是引擎。训练⼀个模型,需要⼤量的数据和算⼒ ,并且需要反复迭代和验证才能得到想要的模型。 为了提升训练效率,缩短训练时间,所有组件之间都需要快速响应,这其中就包括了计算和存储之间的交互。对于⼀个 AI 系统⽽⾔,模型的能⼒随着模型尺⼨和训练数据的增加⽽显著提升,但随着数据集和模型规模不断增加,训练任务载⼊训练数据所消耗的时间越来越⻓,进⽽影响了训练效率,缓慢的 IO 严重拖累 GPU 的强⼤算⼒。在本次演讲中,张文涛将介绍焱融的全闪⽂件存储的整体架构和技术细节,并逐⼀介绍 YRCloudFile 是如何解决 AI 训练过程中遇到的海量⼩⽂件访问慢、 带宽峰值、 内存访问瓶颈和多任务并发访问性能⼲扰等问题。


张文涛毕业于华中科技大学计算机专业硕士,专注于分布式存储领域,拥有超过 15 年的大规模公有云存储架构开发和 AI 存储架构设计,参与主导了 YRCloudFile 高性能分布式文件存储系统从 0 到 1 的设计研发及产品落地工作,并在 AI 场景应用落地方面具备一定的实战经验。在 AI 及高算力场景项目交付上,有着丰富的整体架构设计和性能优化经验。中国智能计算产业联盟专委会技术专家组,上海 TGO 鲲鹏会成员。他在本次会议的详细演讲内容如下:


演讲提纲

1. AI 训练的 IO 特点和存储难点

  • 海量数据的存储、查询和访问

  • 训练的 IO 读取和 Checkpoint 的保存性能

  • 多打⼀的⽹络拥塞问题 

2. YRCloudFile 的整体解析

  • YRCloudFile 整体架构

  • 数据并⾏访问,⾼性能存储的核⼼

  • 分布式元数据集群 ,⽀撑千亿级⽂件系统的关键

  • 缓存和数据⼀致性策略

  • 多租⼾隔离和访问流控

  • ⾼级运维特性

3.  典型案例

4.  总结和未来展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 为了提高缓存的性能,弱化了数据的一致性语义,从强一致性弱化到 open-to-close 的一致性语义

  • 性能、可靠性和成本是一个不可能三角,为了尽可能提升性能和降低成本,我们选择采用 2 副本的方式,提升写性能的同时也极大地降低了成本,在 AI 存储以读为主的场景中,这个选择是非常合适的,但是在传统存储场景中就会面临可靠性不足的问题


演讲亮点

  • 分享 YRCloudFile ⾼性能⽂件系统的核⼼技术

  • 分享在 AI 训练场景中遇到的疑难问题和解决⽅案

  • 分享焱融对未来存储发展的思考


听众受益

  • 了解 AI 训练对存储的需求

  • 对 AI 存储有更深⼊的了解

  • 了解性能优化的常见⼿段


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


报名或了解详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088


2025-03-30 16:081

评论

发布
暂无评论
发现更多内容

浅谈语音质量保障:如何测试 RTC 中的音频质量?

阿里云CloudImagine

阿里云 测试 WebRTC 语音 音频

刷爆Leetcode!字节算法大佬进阶专属算法笔记:GitHub标星97k+

Java 架构 面试 程序人生 LeetCode

如何管理职场新人?

石云升

团队管理 管理 引航计划 内容合集 9月日更

GK架构营模4作业

Ping

三款Linux文件传输工具简单介绍-行云管家

行云管家

Linux 文件传输 IT运维

等保测评一次多少钱,收费标准是怎样的?

行云管家

网络安全 等保 等保测评 等保2.0

阿里内部最新“SpringCloudAlibaba学习笔记”(全彩第三版)限时开源

Java 架构 面试 微服务 Alibaba

一文带你掌握工作流引擎flowable所有业务概念

小鲍侃java

后端 引航计划

0 基础架构入门 - 4(千万级学生管理系统的考试试卷存储方案)

felix

架构实战营 0 基础架构入门

论文阅读丨神经清洁: 神经网络中的后门攻击识别与缓解

华为云开发者联盟

神经网络 深度学习 论文阅读

如何使用ESD二极管,设计运算放大器电压保护?

不脱发的程序猿

电路设计 ESD二极管 运算放大器 电压保护 嵌入式硬件

云原生时代,如何构建数字化转型架构?

博文视点Broadview

让数据库无惧灾难,华为云GaussDB同城双集群高可用方案正式发布

华为云开发者联盟

数据库 高可用 集群 华为云GaussDB 同城双集群

音视频编解码 --X264码率控制初探

Fenngton

音视频 ffmpeg 编码 码率控制 引航计划

第5章-《Linux一学就会》- Linux基本操作和服务器硬件选购指南

学神来啦

Linux linux运维 linux学习 Linux教程

【架构实战营作业】模块四——学生管理系统存储

聆息

案例分享 | dubbo 2.7.12 bug导致线上故障

捉虫大师

dubbo 问题排查

金秋国庆|官微掌门人火热征集!期待你的掌舵!

InfoQ写作社区官方

国庆中秋 热门活动

AI专家一席谈:复用算法、模型、案例,AI Gallery带你快速上手应用开发

华为云开发者联盟

算法 模型 案例 AI Gallery 应用开发

金九银十面试如何得到面试官青睐?2021最新大厂Java面试真题合集(附权威答案)

Java 架构 面试 程序人生 编程语言

HarmonyOS荣膺2021世界互联网大会领先科技成果奖

Geek_283163

华为 鸿蒙

Linux用户/用户组编辑

在即

9月日更

解密秒杀系统架构,不是所有的系统都能做秒杀!

华为云开发者联盟

架构 秒杀 电商系统

应用开发中的存储架构进化史——从起步到起飞

Java 编程 架构 面试 后端

遇见乌镇 | VoneCredit洞见供应链金融新未来

旺链科技

世界互联网大会 供应链金融

毕业设计电商秒杀系统

Clarke

架构实战营

智云盾捕获多个僵尸网络利用最新ConfluenceRCE漏洞的活动

百度开发者中心

安全 漏洞

【大咖直播】Elastic 企业搜索实战工作坊(第一期)

腾讯云大数据

elasticsearch

(model4)千万学生管理系统存储架构设计

消失的子弹

架构 微服务 云原生

🏆【SpringBoot技术专题】「FtpServer文件服务」教你如何基于Springboot开发一个”可移植“的轻量级文件服务项目系统!

码界西柚

Apache springboot ftp服务 9月日更 FtpServer

PerfDog携手Imagination,助力开发者获取GPU关键数据

WeTest

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章