写点什么

将 AI 部署成本降低 8 倍!Yandex 发布 LLM 极限压缩方法:Llama 2 只需 1 个 GPU 即可运行

  • 2024-07-24
    北京
  • 本文字数:1155 字

    阅读完需:约 4 分钟

大小:603.96K时长:03:26
将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行

部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。

 

为应对这一挑战,近日 Yandex Research、IST Austria、KAUST 和 Neural Magic 的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和 PV-Tuning。

 

AQLM 将每个模型参数的位数减少到 2 - 3 位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使 AQLM 在压缩技术领域设立了新的基准。

 

AQLM 的实用性通过其在 GPU 和 CPU 架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM 可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。

 

PV-Tuning 是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning 在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如 Llama 和 Mistral)的 1-2 位向量量化中表现优于以前的方法。通过利用 PV-Tuning,研究人员实现了第一个针对 Llama 2 模型的 2 位参数的帕累托最优量化。

 

当 AQLM 和 PV-Tuning 结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。

 

这些方法的有效性通过对流行的开源模型如 LLama 2、Mistral 和 Mixtral 的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试 WikiText2 和 C4 评估了答案质量。即使模型被压缩到了 12.5%时,它们的答案质量仍保持在 95%。

 

模型

参数数量

压缩后回答质量

LLama 2

7 billion

88%

LLama 2

13 billion

 

97%

LLama 2

70 billion

99%

LLama 3

8 billion

92%

LLama 3

70 billion

93%

Mistral

8 billion

96%

所有测试模型的平均值

95%

 

*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为 8 倍。

 

据介绍,新方法也为开发和部署专有语言模型和开源 LLM 的公司提供了巨大的资源节约。例如,压缩后的 130 亿参数的 Llama 2 模型只需 1 个 GPU 即可运行,相比之下,原模型需要 4 个 GPU,从而使硬件成本降低最高达 8 倍。此举使得初创公司、个人研究者和 LLM 爱好者能够在他们的日常计算机上运行先进的 LLM,譬如 Llama。

 

AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。

 

此外,使用这些方法压缩的模型能够以快达 4 倍的速度运行,因为它们需要的计算量减少了。

 

目前,全球的开发人员和研究人员现在可以在GitHub上使用 AQLM 和 PV-Tuning。作者提供的演示材料为有效训练各种应用的压缩 LLM 提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型

 

2024-07-24 14:198466

评论

发布
暂无评论
发现更多内容

挖矿矿池系统开发详情丨挖矿矿池源码案例

系统开发咨询1357O98O718

挖矿矿池系统开发案例 旷工系统开发功能

DeFi借贷质押系统APP开发|DeFi借贷质押软件开发

系统开发

智慧警务开发,二维码定位报警系统搭建

t13823115967

智慧公安 智慧公安扫码

还有谁比阿里人更懂SpringCloud Alibaba 呢?P8大牛纯手打笔记免费分享!

Java架构之路

Java 程序员 架构 面试 编程语言

架构师训练营第三周作业

Geek_xq

四币连发平台系统开发详解丨四币连发源码(案例)

系统开发咨询1357O98O718

四币连发系统开发案例详解

DeFi流动性挖矿系统开发详解方案

系统开发咨询1357O98O718

defi流动性挖矿系统开发

20分钟带你掌握JavaScript Promise和 Async/Await

葡萄城技术团队

Java

《数据结构与抽象:Java语言描述》.pdf

田维常

数据结构

某美女的程序员老公半夜都还不回家,原来是偷偷在公司看Redis+JVM+Spring cloud+MySQL技术文档

Java架构之路

Java 程序员 架构 面试 编程语言

四面腾讯pcg后端开发岗,一个星期面完成功拿到20K的offer。分享面经

Java架构之路

Java 程序员 架构 面试 编程语言

刚入职,就被各种 Code Review,真的有必要吗?

xcbeyond

方法论 研发管理 编程习惯

SGY奇点交易所系统软件开发|SGY奇点交易所APP开发

系统开发

iOS面试基础知识 (一)

iOSer

ios 面试 runtime 编程开发 iOS Developer

Scala中String和Int隐式转换的问题分析

木子李G

scala 大数据 编程 隐式转换

仅凭这份Java大纲笔记,我如愿拿到了阿里offer。

Java架构之路

Java 程序员 架构 面试 编程语言

DeFi流动性挖矿系统开发(案例源码开发)

系统开发咨询1357O98O718

defi流动性挖矿系统开发

架构师训练营第八周作业

李日盛

算法

滴滴开源小桔棱镜:一款专注移动端操作行为的利器

滴滴技术

开源 滴滴 移动端

阿里架构师经验分享!啃完999页Android面试高频宝典,面试心得体会

欢喜学安卓

android 程序员 面试 移动开发

Github 2020 年度报告:你以为新冠击溃了开发者?不!他们创造了更多代码...

阿里巴巴云原生

开源 Serverless 程序员 代码

区块链信息共享应用落地搭建解决方案

t13823115967

区块链+ 区块链应用 信息共享

Mybatis动态映射,so easy啦

田维常

区分Protobuf 3中缺失值和默认值

Gopher指北

protobuf Go 语言

服务于阿里、滴滴、华为等一线互联网公司的分布式消息中间件RocketMQ核心笔记

Java架构追梦

Java 架构 面试 RocketMQ 消息中间件

用60行代码实现一个高性能的圣诞抽抽乐H5小游戏(含源码)

徐小夕

Java 大前端 H5游戏 H5

EPBC环保生态链系统开发案例丨环保生态链EPBC源码平台

系统开发咨询1357O98O718

环保链APP系统开发案例

区块链BaaS应用平台开发

13828808769

新思科技最新报告显示开源安全是首要考虑因素

InfoQ_434670063458

恕我直言!有了这份MySQL学习文档,你收藏夹里的其他MySQL学习资料都可以扔了

Java架构之路

Java 程序员 架构 面试 编程语言

超详细讲解!Android面试真题解析火爆全网,搞懂这些直接来阿里入职

欢喜学安卓

android 编程 程序员 面试 移动开发

将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行_AI&大模型_褚杏娟_InfoQ精选文章