HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

服务器仅靠 4 颗 CPU 运行千亿大模型的“算法秘籍”

InfoQ

  • 2024-08-01
    北京
  • 本文字数:2412 字

    阅读完需:约 8 分钟

服务器仅靠 4 颗 CPU 运行千亿大模型的“算法秘籍”

巨量模型的智能生产力正在逐步渗透到各行各业,但它们的部署和运行通常需要专用的 AI 加速卡,能否在 CPU 上运行千亿大模型,对千行百业智能化转型的深化与普惠至关重要。


日前,浪潮信息研发工程师基于 2U4 路旗舰通用服务器 NF8260G7,通过张量并行、模型压缩量化等技术,解决了通用服务器的 CPU 计算资源不足、内存带宽瓶颈、缺乏大规模并行计算环境等问题,在业内首次实现服务器仅依靠 4 颗 CPU 即可运行千亿参数“源 2.0”大模型。该方案建设成本更低,首次投入可节约 80%以上建设成本,且通用服务器功耗更低,运维更便捷,能够有效降低客户 TCO。

一、大模型推理的硬件需求:内存与带宽的双重考验

当前,大模型的推理计算面临多方面的挑战,制约了大模型服务成本的降低和应用落地。


首先是对内存容量的需求。大模型的推理过程中,需要将全部的模型权重参数、计算过程中的 KV Cache 等数据存放在内存中,一般需要占用相当于模型参数量 2-3 倍的内存空间。随着业界 LLM 的网络架构从 GPT 架构走向 MOE 架构,主流开源模型的尺寸越来越大,千亿及以上参数的模型已经成为主流,运行一个千亿大模型(100B),则需要 200-300GB 的显存空间。


其次是对计算和内存读写带宽的需求。大模型的推理主要分为预填充和解码两个阶段。预填充阶段把 Prompt 一次性输入给模型进行计算,对显存的需求更大;解码阶段,每次推理仅生成 1 个 token,计算访存较低,对内存带宽的需求更大。因此,千亿大模型的实时推理,计算设备需要具备较高的计算能力,以及较高的存储单元到计算单元的数据搬运效率。


NF8260G7 作为一款采用高密度设计的 2U4 路服务器,支持 16TB 大内存容量,配置了 4 颗具有 AMX(高级矩阵扩展)的 AI 加速功能的英特尔至强处理器,内存带宽极限值为 1200GB/s。尽管 NF8260G7 服务器可以轻松满足千亿大模型推理的内存需求,甚至于万亿参数的 MOE 架构大模型推理的内存需求。但是,按照 BF16 的精度计算,千亿参数大模型运行时延要小于 100ms,内存与计算单元之间的通信带宽至少要在 2TB/s 以上。因此,要在 NF8260G7 上实现千亿大模型的高效运行,仅靠硬件升级还远远不够,硬件资源与软件算法协同优化至关重要。

二、张量并行+NF4 量化,实现千亿模型极致优化

Yuan2.0-102B 是浪潮信息发布的新一代基础语言大模型,参数量为 1026 亿,通过提出全新的局部注意力过滤增强机制(LFA:Localized Filtering-based Attention),有效提升了自然语言的关联语义理解能力。



为了尽可能提升 Yuan2.0-102B 模型在 NF8260G7 服务器上的推理计算效率,浪潮信息算法工程师采用了张量并行(tensor parallel)策略。该策略改变了传统 CPU 服务器串行运行的模式,把 Yuan2.0-102B 模型中的注意力层和前馈层的矩阵计算分别拆分到多个处理器,实现同时使用 4 颗 CPU 进行计算加速。然而,张量并行对模型参数的切分粒度较细,要求 CPU 在每次张量计算后进行数据同步,增加了对 CPU 间通信带宽的需求。在传统的使用多个基于 PCIe 互联的 AI 芯片进行张量并行时,通信占比往往会高达 50%,也就是 AI 芯片有 50%的时间都在等待数据传输,极大影响了推理效率。


NF8260G7 服务器的 4 颗 CPU 通过全链路 UPI(Ultra Path Interconnect)总线互连,该设计带来了两个优势:首先,全链路 UPI 互连允许任意两个 CPU 之间直接进行数据传输,减少了通信延迟;其次,全链路 UPI 互连提供了高传输速率,高达 16GT/s(Giga Transfers per second),远高于 PCIe 的通信带宽,保障了 4 颗处理器间高效的数据传输,从而支持张量并行策略下的数据同步需求。



UPI 总线互连示意图


为了进一步提升 Yuan2.0-102B 模型在 NF8260G7 服务器上的推理效率,浪潮信息算法工程师还采用了 NF4 量化技术,来进一步提升推理的解码效率,从而达到实时推理的解码需求。NF4(4 位 NormalFloat)是一种分位数量化方法,适合于正态分布的数据。它通过确保量化区间内输入张量的值数量相等,来实现对数据的最优量化。由于大型语言模型(LLM)的权重通常呈现零中心的正态分布,NF4 量化技术可以通过调整标准差来适配量化数据类型的范围,从而获得比传统的 4 位整数或 4 位浮点数量化(这些量化方法的数据间隔通常是平均分布或指数分布的)更高的精度。



INT4 数据类型与 NF4 数据类型对比


为了进一步压缩 Yuan2.0-102B 模型的权重参数,浪潮信息算法工程师采用了嵌套量化(Double Quant)技术,这是在 NF4 量化基础上进行的二次量化。NF4 量化后,由于会产生大量的 scale 参数,如果使用 32 位浮点数(FP32)存储,会占用大量的内存空间。若以 64 个参数作为一个量化块(block size=64)来计算,对于一个千亿参数的大模型,仅存储 scale 参数就需要额外的 6GB 内存:


(100B/64) * 4 = 6GB


为了减少内存占用,浪潮信息工程师通过将这些 scale 参数量化到 8 位浮点数(FP8),可以显著减少所需的存储空间。在采用 256 为量化块大小(block size=256)的情况下,存储所有 scale 参数所需的额外空间仅为 1.57GB:


(100B/64/256)* 4 + (100B/64) * 1 = 1.57GB


通过嵌套量化,模型的每个权重参数最终仅占用 4 字节的内存空间,这比原始的 FP32 存储方式减少了大量的内存占用,从内存到 CPU 的数据搬运效率提高了 4 倍。这样的优化显著减轻了内存带宽对 Yuan2.0-102B 模型推理解码效率的限制,从而进一步提升了模型的推理性能。

三、高算效,低成本

通过在 NF8260G7 服务器上应用张量并行和 NF4 量化技术,浪潮信息工程师成功实现了千亿大模型 Yuan2.0-102B 的实时推理,根据性能分析(profiling)的结果,可以清晰地看到模型中不同部分的计算时间分布:线性层运行时间占比 50%,卷积运行时间占比 20%,聚合通信时间占比 20%,其它计算占比 10%。在整个推理过程中,计算时间占比达到了 80%,和此前相比,计算时间占比提升 30%,大幅提升了算力利用率。



Yuan2.0-102B 模型推理性能分析(profiling)结果图


浪潮信息基于通用服务器 NF8260G7 的软硬件协同创新,为千亿参数 AI 大模型在通用服务器的推理部署,提供了性能更强,成本更经济的选择,让 AI 大模型应用可以与云、大数据、数据库等应用能够实现更紧密的融合,从而充分释放人工智能在千行百业中的创新活力。

2024-08-01 17:128724

评论

发布
暂无评论

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(4)

HarmonyOS SDK

HarmonyOS

雷鸟发布 AR 眼镜雷鸟 Air 3:售价 1699 元;苹果 M4 版 iMac 发布 10999 元起丨 RTE 开发者日报

声网

功能强大的文件查找工具Find Any File (FAF) for Mac

Mac相关知识分享

软件

资源成本降低60%,揭秘Serverless的省钱秘籍

华为云开发者联盟

容器 运维 #Serverless CCE

实现员工职业目标与项目目标对齐的策略

爱吃小舅的鱼

目标对齐

1688跨境寻原通数据接口对接:跨境电商卖家必看!

tbapi

1688API 1688代采系统 1688跨境寻源通 1688跨境代采

基于纯血鸿蒙开发,微信适配情况如何?

博文视点Broadview

最好学的编程语言一览,建议收藏

高端章鱼哥

【活动预告】Apache TsFile 干货总结在 COSCON'24 等你~!

Apache IoTDB

倒计时1天 | 袋鼠云秋季发布会明日10:00开幕,我们云上见!

袋鼠云数栈

HDFS 统一存储实战经验|京东零售技术实践

京东零售技术

大数据 数据

如何技术上配置对接Teams Direct Routing

cts喜友科技

通讯 云通讯 通讯通信

专业的RAW转换器Capture One Pro 21 for Mac

Mac相关知识分享

图像编辑器

云电脑的性价比高么

青椒云云电脑

云电脑

代码审查不足?教你改善流程的策略

爱吃小舅的鱼

代码审查

汇聚全球智慧·共绘软件蓝图,2025北京软博会

AIOTE智博会

软博会 世亚软博会 北京软博会

软件工程师如何有效推动大型项目:全面指南

爱吃小舅的鱼

软件工程 项目 软件工程师

公链实体矿机矿池搭建系统开发指南

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

NFTScan | 10.21~10.27 NFT 市场热点汇总

NFT Research

NFT\

解锁热带雨林:Mint Expedition 第四季正式开启!

NFT Research

blockchain NFT\ #Web3

ppt文字描边怎么设置?用这2个软件轻松制作!

职场工具箱

职场 PPT 办公软件 AI生成PPT

利用 EMQX ECP 实现边缘服务配置的版本管理与参数化下发

EMQ映云科技

边缘计算 智能IoT边缘服务 emqx EMQX ECP

聊聊jvm的内存结构, 以及各种结构的作用

EquatorCoco

Java JVM 开发语言

哪些项目管理软件值得一试?9款推荐清单

爱吃小舅的鱼

项目协同进度软件

团队沟通技巧:管理层与技术人员的协作之道

爱吃小舅的鱼

团队沟通技巧

8大主流全生命周期项目管理工具对比

爱吃小舅的鱼

全生命周期项目管理工具

构建区块链生态系统:公链、浏览器、钱包与节点搭建全攻略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

Dropzone 4 for mac(文件拖拽增强工具)

Mac相关知识分享

文件管理工具

Java面试最常见的1309 道 BAT 大厂 java 面试题(附答案分享)

采菊东篱下

java面试

CQ社区版 v2024.10 | 支持k8s、helm部署!

BinTools图尔兹

k8s Helm 数据安全 数据库管理 CloudQuery

掌握数据,赢得市场 —— 淘宝商品详情API让电商运营更精准

技术冰糖葫芦

API 接口 API 测试 API 协议 API 优先

服务器仅靠 4 颗 CPU 运行千亿大模型的“算法秘籍”_生成式 AI_Xue Liang_InfoQ精选文章