QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

将 AI 部署成本降低 8 倍!Yandex 发布 LLM 极限压缩方法:Llama 2 只需 1 个 GPU 即可运行

  • 2024-07-24
    北京
  • 本文字数:1155 字

    阅读完需:约 4 分钟

大小:603.96K时长:03:26
将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行

部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。

 

为应对这一挑战,近日 Yandex Research、IST Austria、KAUST 和 Neural Magic 的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和 PV-Tuning。

 

AQLM 将每个模型参数的位数减少到 2 - 3 位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使 AQLM 在压缩技术领域设立了新的基准。

 

AQLM 的实用性通过其在 GPU 和 CPU 架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM 可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。

 

PV-Tuning 是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning 在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如 Llama 和 Mistral)的 1-2 位向量量化中表现优于以前的方法。通过利用 PV-Tuning,研究人员实现了第一个针对 Llama 2 模型的 2 位参数的帕累托最优量化。

 

当 AQLM 和 PV-Tuning 结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。

 

这些方法的有效性通过对流行的开源模型如 LLama 2、Mistral 和 Mixtral 的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试 WikiText2 和 C4 评估了答案质量。即使模型被压缩到了 12.5%时,它们的答案质量仍保持在 95%。

 

模型

参数数量

压缩后回答质量

LLama 2

7 billion

88%

LLama 2

13 billion

 

97%

LLama 2

70 billion

99%

LLama 3

8 billion

92%

LLama 3

70 billion

93%

Mistral

8 billion

96%

所有测试模型的平均值

95%

 

*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为 8 倍。

 

据介绍,新方法也为开发和部署专有语言模型和开源 LLM 的公司提供了巨大的资源节约。例如,压缩后的 130 亿参数的 Llama 2 模型只需 1 个 GPU 即可运行,相比之下,原模型需要 4 个 GPU,从而使硬件成本降低最高达 8 倍。此举使得初创公司、个人研究者和 LLM 爱好者能够在他们的日常计算机上运行先进的 LLM,譬如 Llama。

 

AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。

 

此外,使用这些方法压缩的模型能够以快达 4 倍的速度运行,因为它们需要的计算量减少了。

 

目前,全球的开发人员和研究人员现在可以在GitHub上使用 AQLM 和 PV-Tuning。作者提供的演示材料为有效训练各种应用的压缩 LLM 提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型

 

2024-07-24 14:198533

评论

发布
暂无评论
发现更多内容

JetBrains Rider 2024 for Mac(跨平台.NET IDE集成开发)v2024.1.2激活版

iMac小白

Rider 2024下载 Rider 2024中文版 Rider 2024破解版

SkyEye:助力飞行器状态控制系统仿真

DevOps和数字孪生

SkyEye 飞行器

什么? 20分钟,构建你自己的LLaMA3应用程序| 京东云技术团队

京东科技开发者

深入理解java反射机制及应用 | 京东物流技术团队

京东科技开发者

.NET有哪些好用的定时任务调度框架

不在线第一只蜗牛

.net 任务调度

Middle for Mac:优雅的文本编辑器,创意的源泉

iMac小白

Middle下载 Middle破解版 Middle激活版 Middle mac

Tower for Mac(强大的Git客户端)v11.0 注册激活版

iMac小白

Tower下载 Tower mac版 Tower激活版

Translatium for Mac(强大的mac翻译软件)v43.0.1中文版

iMac小白

Translatium中文版 Translatium下载 Translatium Mac

掌握代码协作:GitHub、GitLab 和 Gitee 的远程存储库比较

测吧(北京)科技有限公司

测试

关于Java Chassis 3的契约优先(API First)开发

EquatorCoco

Java Web API 开发语言

GaussDB细粒度资源管控技术透视

华为云开发者联盟

数据库 华为云 华为云GaussDB 华为云开发者联盟 企业号2024年5月PK榜

【论文速读】| LLM4FUZZ:利用大语言模型指导智能合约的模糊测试

云起无垠

一种极简单的SpringBoot单元测试方法| 京东零售技术团队

京东科技开发者

Downie 4 for Mac:一键下载,畅享视频

iMac小白

Downie 4 下载 Downie 4 Mac版 Downie 4中文版

欧洲足球五大联赛直播/转播数据获取及在线观看平台开发方法

软件开发-梦幻运营部

“三个办法”新规将于7月1日起施行

芯盾时代

金融 风控 信贷

MarkMyWords for Mac:高效笔记工具

iMac小白

MarkMyWords 下载 MarkMyWords 激活版 MarkMyWords 破解版

Downie 4 for Mac(视频下载工具)兼容14系统v4.7.13中文版

iMac小白

Downie 4 Mac版 Downie 4中文版 Downie 4下载

《Git之力:从远程存储库到IDE集成》

测吧(北京)科技有限公司

测试

深入理解分布式锁:原理、应用与挑战| 京东物流技术团队

京东科技开发者

缺乏数据源?超算安腾助力开启AI药物研发新范式

Geek_2d6073

TinyEngine 低代码引擎区块局域网部署方案全新上线!

OpenTiny社区

开源 前端 Web 低代码

DiskCatalogMaker for mac(mac磁盘管理工具)v9.0.7中文激活版

iMac小白

DiskCatalogMaker下载 DiskCatalogMaker中文 DiskCatalogMaker破解 DiskCatalogMaker激活

sublime text for Mac(代码编辑器)v4.0(4175)中文注册版

iMac小白

sublime text下载 sublime text中文版 sublime text破解版 Sublime Text注册版

将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行_AI&大模型_褚杏娟_InfoQ精选文章