在今年 9 月份,MLCommons 协会发布最新 MLPerf™ Storage v1.0 AI 存储基准测试成绩。浪潮信息分布式存储平台 AS13000G7 表现出众,在 3D-UNet 和 CosmoFlow 两个模型共计 8 项测试中,斩获 5 项最佳成绩。
MLPerf™ Storage v1.0 AI 存储基准测试背景
MLPerf™是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2023 年推出 MLPerf™ 存储基准性能测试(v0.5),是全球首个且唯一的 AI/ML 存储基准测试,旨在以架构中立、具有代表性和可重复的方式衡量机器学习(ML)工作负载的存储系统性能。本次 MLPerf™ 存储基准评测(v1.0)吸引了全球 13 家领先存储厂商和研究机构参与。该评测围绕医学影像分割、图像分类、宇宙学参数预测三大 AI 存储应用场景,采用主流的 3D-UNet、ResNet50、CosmoFlow 三类模型,在 GPU 利用率高达 90%或 70%的条件下,以带宽和支持的模拟 GPU (模拟加速器)数量为关键性能指标,评估单客户端或集群模式下存储系统的性能表现。这些模型在业界具有广泛的应用,能够更好地代表实际工作负载。
浪潮信息 AS13000G7 获 MLPerf™ AI 存储基准评测多项最佳成绩!
浪潮信息分布式存储方案架构师 Lance Sun 博士介绍,本次测试,浪潮信息采用 3 台 AS13000G7 搭建分布式存储集群,搭载 ICFS 自研分布式文件系统,在 3D-UNet 和 CosmoFlow 两大评测任务中共获得五项最佳成绩。其中,在图像分割 3D-UNet 多客户端 2 评测任务中,服务于 10 个客户端 264 个加速器,集群聚合带宽达到 360GB/s,单个存储节点的带宽高达 120GB/s;在宇宙学分析 CosmoFlow 单客户端 2 和多客户端 2 评测任务中,分别提供了 18 GB/s 和 52 GB/s 的带宽最佳成绩。
3D-UNet 是图像分割领域最具影响力的 AI 模型,3D-UNet 模型参数量在 800 万到 3000 万之间,由于数据是海量的图像类非结构化数据,参数量越少代表计算速度越快,这对存储提出了更高的挑战,存储要高带宽、低时延,才能保证 GPU 使用处于高速运转状态,一旦存储性能不足,将导致 GPU 利用率严重下降,浪费大量算力。3D-UNet 工作负载每 FLOPS 算力所需存储带宽最高,且数据需要从存储节点读取,不允许提前在主机上缓存,能够真实体现存储系统性能,实际体现大模型存储体验。
CosmoFlow 是一个宇宙学模拟的深度学习基准,是 AI for Science 领域的代表性模型,其参数量在 10 万到 20 万之间,越小的模型,时延要求越高,在 CosmoFlow 模型下,其每个样本读取速度不超过 380 微秒,才能达到 GPU 利用率 70%以上。然而对于宇宙模拟来讲,数据量相较于图像音频等领域更加庞大,这对存储系统的时延提出了更大的挑战。和 3D-UNet 一样,他们都是典型的数据密集型应用。
AI 存储挑战来临,浪潮信息交出最佳答卷
生成式 AI 由基础大模型向行业大模型转变,并向场景大模型演进,“千模大战”接近尾声,行业应用 AI 持续涌现,数据成为智能革命的核心动力。
浪潮信息存储产品线副总经理刘希猛在采访中提到,人工智能正在赋能千行百业,数据扮演着重要的角色。在智慧金融,通过采集内外部大规模数据,提取千亿级风险特征库,训练出防欺诈模型,助力金融机构防范欺诈风险,让交易更安全。在自动驾驶领域,L4 级自动驾驶车每天可以产生 60TB 数据,同时这些数据必须得到快速的处理和转化,以保证车辆在各种复杂环境中都能稳定、安全地运行。制造业也在进行智能化改造,比如产线产品智能质检,利用传感器、工业相机采集大量数据,单条产线年数据量可达 PB 级,使用这些数据监控产品质量、识别潜在问题,提高质检效率、降低生产成本,这些数据的保存周期长达 10 年以上。AI for Science 也是人工智能非常典型的应用,传统需要 10 个博士花 5 年时间完成的生物结构蛋白分析,现在一个学生借助 AI,基于亿级文件数据,两周时间就可以完成,彻底改变一些学科的研究范式,使得科研更加高效。
总的来说,人工智能赋能千行百业,背后离不开数据这个关键要素,数据连接了物理世界和数字世界,而数据存储作为数据的载体,是人工智能落地的关键支撑之一。
Gen AI 时代面对万卡算力集群、万亿参数规模的大模型训练,需要存储提供 TB 级带宽、百万级 IOPS 的性能表现,同时对数据跨域调度、数据安全、数据可持续性访问提出了更高的要求。
Gen AI 时代的存储挑战,我们可以按照三个阶段进行总结。首先是模型训练阶段,大模型爆发初期,国内有超过 100 家的大模型公司开始迅速进行市场布局。在这个阶段,模型训练追求的就是“快”,通过 IT 基础设施的方案优化,有效地提升 GPU 效率,加速模型的训练并得到市场认可,即可抢占市场先机。模型训练的数据加载、模型训练过程中的断点续训要尽可能地降低对计算时间的占用,在万卡算力集群万亿参数的大模型的快速训练时,小于 1 分钟断点续训,需要存储提供 TB 级的带宽,同时小模型的训练推理则对 IOPS 提出更高要求,存储系统需提供超过百万级的 IOPS。
随着模型在各行业落地的需求,在很多的行业场景里,专业化的数据缺少积累,过去分散在各终端、地域数据的夸协议、夸地域高效率共享整合。这就要求存储具备数据跨域调度,通过异构纳管实现全局命名空间管理,提升数据汇集、分析的效率。大模型的行业化落地过程中,为了提升通用模型的专业化能力,训练出精度更高的模型,要求有更高质量的数据集。为得到高质量数据,原始数据要经过粗加工、精加工等多个作业环节。比如某媒资用户,需要讲 30PB 的图书、新闻等原始数据生成 2PB 的高精数据,在这个阶段对数据的安全存储提出了要求。而形成的高质量数据可根据需求进行重复利用,数据可持续性访问也提出了更高的要求。
浪潮信息积极布局面向人工智能时代的高性能、高效率、高韧性的存储平台,以数据为中心,覆盖数据全生命周期,多协议数据融合,多样系统协作与集成,构建人工智能下完善的存储解决方案,以统一视图管理为客户提供完善的数据服务。
浪潮信息存储平台主要有软件定义存储和阵列存储两大类系统组成。首先是软件定义存储,主要面向 AI 大模型中的海量、多模态非结构化数据,追求极致的性价比。采用融合的架构设计理念,用一套架构支持文件、块、对象、大数据四种服务,后台一份数据对应前台多种服务,帮助客户降低采购和维护的成本。然后是集中式存储平台,面向 AI 推理及生产应用中的极致可靠和极低时延的存储需求。优化闪存的资源调度算法,充分利用更多的 CPU 核心和线程来并行处理更多的存储进程,通过盘控协同,进一步提升存储系统性能。
在 AI 场景,浪潮信息存储主要的技术方向包含三个方面:一是高性能,以解决混合 AI 负载对存储读写带宽、IOPS,以及低时延的要求。二是高效率,通过存储支持文件、对象、大数据等非结构化协议融合互通,全局命名空间等,减少多份数据重复存储,以及数据夸协议、夸区域、夸系统调度检索的问题。三是高韧性,一方面通过故障的快速恢复、故障前的精准预测降低系统异常时的性能影响,以及服务的连续性,同时强化数据保护与安全防护能力,保证数据的完整、一致、持续可访问。
浪潮信息存储核心技术支撑
近年来,模型参数量,训练数据量、GPU 算力,网卡性能,GPU 规模均在飞速增长,原有的存储不足以应对 AI 这类新质生产力的快速发展,存力底座面临了前所未有的压力。无论是海量训练数据加载,PB 级检查点断点续训,还是高并发推理问答等,存储性能直接决定了整个训练/推理过程 GPU 利用率。特别在万卡集群规模下,较差的存储性能,会严重增加 GPU 闲置时间,导致模型落地困难,业务成本剧增。因此,现代存储已经由传统的数据载体和数据仓储,转化成 AI 发展的关键组件。存储系统提供更高的吞吐量,更低的时延,更高效的数据管理,是加快数据价值释放,推动 AI 产业化向产业 AI 化发展的核心动力。
为了满足 AI 训练对存储高带宽和低时延的双需求,浪潮信息一直加大研发投入,聚焦 AI 训练阶段,致力于文件场景存储性能的突破,创新性地提出以下技术:
架构层面:AI 产业需要高成本投入,特别是算力采买、租赁更是及其昂贵,在 AI 训练阶段,通常会采用 NVMe SSD 全闪集群。为了充分激发全闪性能,以更少的存储规模带来更高的带宽收益,浪潮信息自研分布式文件系统 ICFS 采用全新的数控分离架构,通过将 I/O 的控制面和数据面解耦合,实现了分布式一致性等复杂的控制面与数据流直通数据面分离处理架构,解决了分布式存储数据流在节点间流转的转发问题,减少东西向(节点间)数据转发量 80%,本次 MLPerf 测试,达到 120 GB/s 的单存储节点的超高性能。优异的单节点性能,可以节省客户大量的存储成本,具有极高的性价比。
软件层面:AI 训练对数据访问时延非常敏感。训练阶段,数据从远端分布式存储系统,到应用侧用户态空间,整个数据链路存在频繁的 IO 中断和上下文切换。特别是大规模分布式训练这类高并发场景,单次 IO 时延拖长,最终集群累积时延会严重拖慢整体存储性能,造成 GPU 资源严重浪费。浪潮信息采用自研分布式文件系统 ICFS,通过多路并发透传技术,有效减少 I/O 操作中频繁的上下文切换,降低单次 I/O 时延 50%,同时达到高并发下时延稳定性。本次测试 3D-UNet 场景中,三节点存储支撑了 1430 个高并发读线程,保证每个线程单次 I/O 的时延均在 0.005 秒,AI 端到端训练中 I/O 占比低于 10%,计算节点带宽利用率达到了 72%。
软硬协同层面:为了达到极致的 AI 训练性能,AI 训练服务器目前均采用高端配置,例如采用最新的 Intel8480 的 CPU,NVIDIA Quantum-2 IB 交换机,TB 级内存容量,为了发挥整个 AI 服务器硬件性能,与存储系统更紧密的结合,浪潮信息存储在软硬协同层面,通过内核亲和力调度,I/O 请求动态调整,增强文件系统与计算节点亲和性,确保负载均衡,将数据移动与多核 CPU 之间的访问效率提升 400%。
浪潮信息存储平台的未来技术演进方向
刘希猛在采访的时候也介绍说,针对存储需求,浪潮信息定义了三个技术方向。第一是性能优化,解决大模型前端的高吞吐率、高 IOPS 和低时延问题。第二是数据流转效率,通过协议融合和全局命名空间实现数据免拷贝共享和全局检索。第三是系统韧性,重点提升数据的安全性、系统稳定性和服务的连续性,以确保业务持续在线。在性能方面,浪潮信息通过数控分离架构提升了 60%的带宽,单节点带宽超过 100GB/s;通过小 IO 聚合技术和预读算法提升了五倍小 IO 性能,训练数据加载速度提高十倍;通过无锁机制发挥多核处理器的作用,进一步降低了 40%的时延,极大提升了 AI 场景中的数据加载效率。
浪潮信息通过多项技术创新提升了数据流动效率。首先是多协议融合技术,通过整合文件、对象、大数据、视频等不同的数据存储协议,避免了不必要的数据拷贝,最多可以节省 75%的存储空间,通常情况下节省 50%。这项技术有效解决了 AI 应用中多种数据格式的问题,极大提升了数据共享效率。其次是全球元数据管理系统,通过全局命名空间实现数据的全局访问和检索,尤其在大规模数据处理和语料生产中,能对海量数据进行快速检索,支持十亿级文件在一秒内返回结果。
浪潮信息在韧性方面的创新集中在保障业务连续性和故障恢复能力。首先,通过数据预处理和算法检测,实现了 TB 级数据在五分钟内的快速恢复,比传统 15 到 30 分钟的恢复速度大幅提升。其次,通过故障预测机制,能够在故障发生前进行预测,避免影响业务。硬盘故障预测准确率达 98%,误报率为 0.007%,有效减少了业务中断的风险。此外,浪潮信息还加强了数据安全防护,特别是与华中科技大学合作,针对勒索病毒的检测与防护取得了领先的漏检率和误检率表现。
大模型训练过程中存储的重要性
在 2023 年,大多数企业在建设大模型训练时,主要聚焦在增加算力,往往忽视了存储的重要性。然而,随着项目的推进,许多企业发现存储性能的不足会直接影响 GPU 的利用率,进而影响业务效率。通过浪潮信息的存储方案优化后,业务效率显著提高,切割方案的时间降低了一个数量级,提升了整体性能和价值。这一成果在某国内领先的大模型训练客户的项目中得到了验证,并且该客户正计划进一步扩展,浪潮信息正在与其合作建设联合实验室,准备在未来的千台节点和万卡集群中实施联合方案。
除了自建大模型的企业外,国内还有一些企业专注于将算力租赁给其他客户。这类企业的需求主要围绕多租户管理、算力调度的高效性、数据隔离与安全等方面。浪潮信息通过提供满足这些需求的产品功能与接口,尤其是在防病毒与防勒索方面的能力,帮助这些客户优化了存储系统。在后续的扩展计划中,这些客户也将继续与浪潮信息展开合作。
在 AI 时代,存储的需求相比传统数据中心发生了显著变化。传统上,存储的关注点在于性能、容量和可靠性。然而,在 AI 应用场景中,数据流动、数据共享以及数据的统一管理变得愈加重要。因此,未来的数据中心必须通过软硬件的按需组合,提供统一的视图,来满足 AI 驱动的多样化负载需求。浪潮信息存储将持续利用现有的研发资源,结合与客户和技术合作伙伴的协作,推动产品技术的创新,以满足未来 AI 应用的需求。
刘希猛还提到了 AI 对存储市场的推动作用,过去一年,浪潮信息感受到存储的增量市场几乎完全来自于 AI 的需求。虽然国内整体经济环境不佳,但 AI 相关的市场规模已经显现。浪潮信息将 AI 市场分为两类:一类是 AI 产业化,包括模型训练、语料生产和算法优化,这些领域带来的存储需求主要集中在大模型和语料的处理上,尤其是语料市场,预计从今年开始将出现快速增长的趋势。虽然算力市场可能趋于平稳,但总体来看,AI 的崛起已经对存储市场产生了积极的促进作用。
另一类主要市场是 AI 在各行业中的应用,也就是“产业 AI 化”。具体表现为 AI 技术在金融、科研、制造等行业中的落地应用。这些行业已经开始通过 AI 技术创造实际价值。例如,金融领域的证券交易和量化交易、科研领域的辅助研究、以及制造业中的智能化转型,都在推动 AI 存储需求的增长。这些领域的发展速度较快,浪潮信息已经在这些市场中进行布局,预计未来会有较大的增量。
评论