写点什么

中国存储厂,杀入顶分桌

焱融科技

  • 2024-10-31
    北京
  • 本文字数:4086 字

    阅读完需:约 13 分钟

大小:2.00M时长:11:38
中国存储厂,杀入顶分桌

如果不是 2016 年,AI 在围棋上大放异彩,关于高性能存储的故事本不会这么复杂——它应该是一场玩家数量极其有限的牌局,由英特尔、IBM、DataDirect Networks、WEKA 等寥寥几家头部玩家轮流坐庄。


这个牌局不欢迎生面孔,即使偶有例外,大概也会是像 Nutanix 一般——其 CEO 先后供职于 VMware 、博通、思科,算是“老朋友的新爱好”。


通常情况下,你很难在“存储”这般重要的事情上,获取大客户的信任。相对于其他赛道而言,存储领域对“后起之秀”更加不友好。


但 AI 好似一条巨型“鲶鱼”,搅混了高性能存储的水。


AI 兴起前,高性能存储的目标客户,以“超算中心”为主。时间一过 2016 年,这个市场就变成了由云计算、AI 公司、超算中心等客户构成的复合型市场。等到 2022 年,生成式 AI 兴起后,情况变得更加复杂。


今天,有许多创业公司专攻面向 AI 的文件存储系统,并且获得了挑战“存储巨头”们的机会。


这是为什么 MLCommons 社区和焱融科技这家公司,在近期吸引了如此之多的关注——

前者作为人工智能工程联盟,在 AI 工程相关的基准测试方面,颇有公信力。今年,MLCommons 围绕其核心的 MLPerf Training 基准测试套件,发起了一个面向 AI 存储场景的横向性能测试,叫做 MLPerf® Storage v1.0 ,吸引了众多在国际上“有头有脸”的存储厂商参加。


后者则是这套测试里,唯一一个参加了全部测试项目的国产厂商,且成绩相当不错,足以和“领头羊”DDN(DataDirect Network)掰掰手腕。


看起来,一个诞生于 2016 年前后,性能堪比 DDN 的中国玩家已经上桌了。但是,对于所有关注 AI 存储的企业和开发者来说,这次测试内含哪些信息,该如何解读?焱融科技又做对了什么?


MLCommons 的测试靠谱吗?


这首先取决于 MLPerf® Storage v1.0 本身,相对于 IO 500 这样的老牌榜单,在专业度和公信力层面表现如何。


至少从 MLCommons 社区的董事会名单来看,MLPerf 的专业度是有保障的——里面既有来自英伟达、英特尔、谷歌的 AI 业务高管,也有来自哈佛的教授,以及来自 Facebook 的 AI 研究员,可谓背景雄厚。


这也给 MLCommons 带来了额外好处:成熟的开源文化和独到的技术能力。以 MLPerf® Storage v1.0 为例,MLPerf 可以通过 CPU 来完美模拟 GPU 活动,你甚至可以选择是针对 A100 进行测试,还是 H100 进行测试。不需要大量的真实物理资源来完成压测,这是 MLPerf® Storage v1.0 能成功推出的关键。


从结果来看,多家存储公司参加了这次测试。既包括老牌企业 DDN、Nutanix,也包括 WEKA、Hammerspace 这类新兴明星企业,以及 simplyblock 这般成立仅两年的初创企业,在国内,则有焱融科技、华为、浪潮、JuiceFS 等多家公司参加。


而具体的测试方法,有着浓厚的、来自生成式 AI 的“时代特色”:根据存储服务场景的不同,MLCommons 在两个不同的测试版本上,分别选用了四款模型:3D U-Net(图像分割、医学类)、ResNet-50(图像分类,仅 v1.0 版本)、 CosmoFlow (宇宙学参数预测,仅 v1.0 版本)和 BERT-large(语言处理,仅 v0.5 版本),用以测试不同场景下的存储性能。


拿 1.0 版本来说,3D U-Net、ResNet-50、CosmoFlow 不但覆盖了常见的 AI 存储场景,也对存储设备的性能提出了不同要求。这三个模型的单个样本大小,分别是 150MB、150K、2MB,基本覆盖了不同标准下的“大文件”、“小文件”,考验的是厂商在不同场景下的性能调校,以及对元数据的处理策略。

更进一步,MLCommons 要求在 3D U-Net、ResNet-50 的测试中,AU(加速器利用率)必须大于 90%;CosmoFlow 测试的 AU 必须大于 70%。若 AU 一旦低于此值,说明存储性能不足以支撑 GPU 高效运行,即被认定为低效存储,花费太多时间在网络等开销上。


在整个测试过程中,MLPerf® Storage v1.0 会不断增加 ACC(虚拟加速器,也就是模拟 GPU)的数量,直到 AU 低于 90% 或 70%,。最终输出三项数据用作最终比对,分别是:被测机器支持的 ACC(虚拟加速器)总数、测试数据集大小、吞吐速率。


所有测试数据都会被公示,参评的厂商互相审校,交叉提问,只有关于测试成绩的提问全部被“Close”掉,才算做最终测试完成,保证了测试的公正合理。



当然,MLPerf® Storage v1.0 也存在一些问题,其核心是对测试场景的覆盖不够完整。比如缺少对大参数量级的模型的测试,从 3D U-Net 到 BERT-large,参数量级都很小;此外,测试只模拟模型对训练数据的访问,没有测试重新加载模型,或者写 CheckPoint 时,表现出来的存储峰值性能。


另外从 MLCommons 官方公布的结果来看,你很难直接得出一个厂商维度的综合成绩和排名。因为官方只公布了各厂商所提供机器的测试结果,而每台机器配置不同,价格不同,所以数据差异也较大。


我们只能结合存储市场的实际选型情况做自主推测:三项测试数据中,“ACC 总数”这项数据更为关键。至于数据集大小,其实可以忽略——测试数据集的大小,会被设定为测试机器内存的五倍,用以防止参与测试的厂商提前缓存训练数据。


综合来看,MLCommons 真正想展示给公众的数据是两个维度的数据:

  1. 某厂商的一套存储系统,能支撑的虚拟 GPU 是多少颗,吞吐速度如何;

  2. 该存储系统里的单个计算节点,能支撑的虚拟 GPU 是多少颗,吞吐速度如何;


但出于某些原因,社区没有将测试结果,细化到这个层面,也导致各家公关口径的成绩大相径庭。

比如 DDN 选择计算单闪存可以支撑的虚拟 GPU 数量。在这种算法下,DDN 排名第一,排名第二的是国产厂商——焱融科技。


但闪存数量通常不是一套存储系统的性能瓶颈,整体的网络开销才是。且各家产品架构不同,闪存数量,并不是存储设备在性能方面的通用单位。通过计算单闪存平均支持的 ACC 数量来做排名,无疑有失偏颇。


相比较之下,焱融科技以计算节点为单位衡量存储性能,泛用性更强。分布式训练集群场景,焱融存储在所有三个模型的测试中,能够支撑的每个计算节点平均 ACC 数量和存储带宽性能排名第一,排名第二的则是来自美国的独角兽 WEKA。


抛开计算方法层面的分歧,排名靠前的厂商大致有哪些,其实已经明确了——当下,虽然不能说,像焱融科技这般的国产存储厂商,已经完成了对老牌国外存储厂商的追赶和反超,但在部分垂直场景的存储技术上,“国货”和“洋货”确实已经可以同台竞技,甚至战而胜之。


“国货”的崛起逻辑


当然,对于国内厂商而言,技术实力很关键,但并不是全部。


这种来自国际权威组织的公开测试,与其说是一场“同台竞技”,不如说是一次宝贵的宣传机会。毕竟在硬科技领域,国内企业往往长于技术,短于生态和营销,几乎已经形成某种刻板印象。


好在,AI 技术的爆发,将市场拉回了某种混沌态,客户的需求几乎年年都在变,这是创业公司更为适应的生存环境——相较于传统巨头们,他们更灵活,也更有侵略性。


早期 AI 客户往往扎根于计算机视觉、自然语言理解等领域,对存储的要求与性能强相关,且主要考察“读”能力,对“写”能力要求不高。而到了大语言模型兴起后,对“写”能力的要求大幅提升。同时,为了保证模型训练、微调等环节的业务连续性,大模型要经常写 CheckPoint,这进一步增加了存储设备的“写”压力。


无论是 CV、NLP,还是大语言模型,对于存储设备而言,都是进行大文件读写。等到多模态能力在生成式 AI 中得到普及,图片和视频切片,形成了海量的小文件。对存储厂商而言,技术难度进一步上升。

“国货”的机会,也恰恰是在这些挑战中诞生的。


相比于存储大厂,新兴企业,尤其是国内的新兴企业,通常更加专注,比如焱融科技,只关注 AI 场景下的分布式文件存储。


此外,国产化替代仍然在进行中。生成式 AI 的发展,和新质生产力相关政策的出炉,不断刺激着国内分布式存储行业的发展。


单从市场层面看,“国货”在存储领域对“洋货”形成替代,实际上也是必然的。


首先存储直接影响业务的连续性和稳定性,一旦发生故障,相关技术团队需要立刻到位。这对于外企而言,显然有些困难。


其次,国内厂商对客户的定制化要求,包容度足够高,愿意配合客户进行一些架构上的探索,这更符合国内甲方企业的实际诉求。


最大的优势,还是在产业链层面。据业内人士透露,在闪存选 QLC,网络解决方案选 RoCE 的情况下,国内有不少上游厂商可供存储厂商选择,对比国外企业,大概会有 20% 的成本节省,从而表现的在终端售价上更有竞争力。


这是为什么,成立还不到十年的焱融科技,今时可以在 MLCommons 举办的测评中,和已经成立 26 年的 DDN 打擂台。


跳出舒适区


与上述判断相符的是,售卖存储设备的外企,在中国,仍处于长达十年的持续衰退中。以至于有研究机构,围绕国内市场做竞争力象限图时,DDN 这样企业的位置,已经从右上角(领导者)跌入左下角(专精者)。


这既给国内企业留出了充足的发展空间,同时也意味着,未来的增长故事不会发生在国内,而是发生在海外。有研究机构预测,到 2031 年,北美地区的软件定义存储市场预计增长到 380 亿美元以上,亚太地区预计增长至 275 亿美元以上,中国地区预计占到其中 33.7% 的份额。


类似 MLPerf® Storage v1.0、IO 500 这样的测试和榜单,对于国内企业而言,今后会变得更加重要。

焱融科技对此认知十分清醒。焱融科技 CTO 张文涛透露,对于六月底开始的 MLPerf® Storage v1.0,焱融科技实际上在 4 月就开始测试了。由于早期不知道同台竞技的企业有哪些,只能尽量逼近自身产品的极限值。


同时,今天的存储厂商每谈成一单生意,要解决的不光是性能问题,也是产品问题和服务支持问题。

大模型超长的训练周期以及其特殊的业务流程,要求存储厂商的产品,不仅性能够强,在产品设计和服务支持方面也要跟得上。


这是为什么焱融科技投入人力开发了 Dataload 智能数据加载功能——多云、混合云架构是过去几年间,国内最主要的云构建策略,而以 Dataload 为核心的解决方案,可以激活历史数据的价值,打通对象存储与文件存储,实现多云间的数据流转,消除性能瓶颈。


这其实是市场对产品提出的新要求。


成立于 2016 年前后的存储企业,即将迈过十周年的门槛,变得不再年轻。而随生成式 AI 的发展而诞生的新兴存储企业,正逐步进入市场主流视野。


曾经的“少壮派”们,如今面临着向上从巨头手中抢市场,向下严守基本盘的空前竞争压力。能否走出舒适区,将成为后续发展的关键一步。


2024-10-31 10:5012070

评论

发布
暂无评论
发现更多内容

小程序开发教程,2021Android开发现状分析

欢喜学安卓

android 程序员 面试 移动开发

🌏【架构师指南】分布式技术知识点总结(数据处理)

洛神灬殇

架构 数据 7月日更

学习资源:图像处理从入门到精通

Jackpop

鉴释首席运营官赵科林:质量第一思维模式

鉴释

代码 安全编码

Python OpenCV 图像的双线性插值算法,全网最细致的算法说明

梦想橡皮擦

Python 7月日更

大数据获取客户系统软件开发源码

获客I3O6O643Z97

大数据

Vue进阶(九十五):addEventListener() 监听事件

No Silver Bullet

Vue 事件监听 7月日更

flutter开发工具,细数Android开发者的艰辛历程

欢喜学安卓

android 程序员 面试 移动开发

handler内存泄露,已成功拿下字节、腾讯、脉脉offer

欢喜学安卓

android 程序员 面试 移动开发

希望这是一篇让你对vim产生兴趣的文章

Jackpop

Python调试神器之PySnooper

Jackpop

看完这篇 HTTPS 文章,再也不怕面试官这么问我了

HelloWorld杰少

https 对称加密 HTTP 非对称加密、 7月日更

Discourse 云平台安装

HoneyMoose

Rust从0到1-面向对象编程-Trait 对象

rust oop 面向对象编程 Trait Objects Trait 对象

浪潮云说丨如何对多云进行统一运营

云计算

Pandas高级教程之:自定义选项

程序那些事

Python 数据挖掘 数据分析 pandas 程序那些事

Java Flight Recorder - 事件机制详解

毕昇JDK社区

四色建模法

escray

学习 极客时间 7月日更 如何落地业务建模

主存中存储单元地址的分配

朱华

计算机组成原理 计算机专业

BSC币安智能链挖矿模式开发

获客I3O6O643Z97

分布式存储 币安智能链

深度分享|金融行业模型管理效能提升的规划与思考

索信达控股

大数据 金融科技 金融 风险管理 营销管理

gopher成长之路(一):致三年前的我

非晓为骁

个人成长 架构师 全栈工程师 Go 语言 努力

Linux之diff命令

入门小站

Linux

Vue进阶(七十九):应用 postMessage 实现父子跨域通信

No Silver Bullet

Vue 跨域 7月日更 跨域通信

从开发转到安全渗透工程师,是我做的最对的决定

网络安全学海

黑客 网络安全 信息安全 渗透测试· 漏洞分析

多用as少用强制类型转换

喵叔

7月日更

在线XML转HTML工具

入门小站

工具

图计算之开局女朋友跑了

Zhuan

图算法 图计算 networkX GraphScope

大数据精准营销APP系统开发源码搭建

获客I3O6O643Z97

大数据 抖音霸屏

挖掘机哪家强?不找蓝翔找AI!

脑极体

痛苦调优10小时,我把 Spark 脚本运行时间从15小时缩短到12分钟!

小拍Piper

scala spark 计算机 spark-shell spark-env

中国存储厂,杀入顶分桌_大数据_InfoQ精选文章