《中国AI Agent应用研究报告 2024》开放下载 >>> 了解详情
写点什么

将 AI 部署成本降低 8 倍!Yandex 发布 LLM 极限压缩方法:Llama 2 只需 1 个 GPU 即可运行

  • 2024-07-24
    北京
  • 本文字数:1155 字

    阅读完需:约 4 分钟

大小:603.96K时长:03:26
将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行

部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。

 

为应对这一挑战,近日 Yandex Research、IST Austria、KAUST 和 Neural Magic 的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和 PV-Tuning。

 

AQLM 将每个模型参数的位数减少到 2 - 3 位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使 AQLM 在压缩技术领域设立了新的基准。

 

AQLM 的实用性通过其在 GPU 和 CPU 架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM 可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。

 

PV-Tuning 是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning 在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如 Llama 和 Mistral)的 1-2 位向量量化中表现优于以前的方法。通过利用 PV-Tuning,研究人员实现了第一个针对 Llama 2 模型的 2 位参数的帕累托最优量化。

 

当 AQLM 和 PV-Tuning 结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。

 

这些方法的有效性通过对流行的开源模型如 LLama 2、Mistral 和 Mixtral 的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试 WikiText2 和 C4 评估了答案质量。即使模型被压缩到了 12.5%时,它们的答案质量仍保持在 95%。

 

模型

参数数量

压缩后回答质量

LLama 2

7 billion

88%

LLama 2

13 billion

 

97%

LLama 2

70 billion

99%

LLama 3

8 billion

92%

LLama 3

70 billion

93%

Mistral

8 billion

96%

所有测试模型的平均值

95%

 

*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为 8 倍。

 

据介绍,新方法也为开发和部署专有语言模型和开源 LLM 的公司提供了巨大的资源节约。例如,压缩后的 130 亿参数的 Llama 2 模型只需 1 个 GPU 即可运行,相比之下,原模型需要 4 个 GPU,从而使硬件成本降低最高达 8 倍。此举使得初创公司、个人研究者和 LLM 爱好者能够在他们的日常计算机上运行先进的 LLM,譬如 Llama。

 

AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。

 

此外,使用这些方法压缩的模型能够以快达 4 倍的速度运行,因为它们需要的计算量减少了。

 

目前,全球的开发人员和研究人员现在可以在GitHub上使用 AQLM 和 PV-Tuning。作者提供的演示材料为有效训练各种应用的压缩 LLM 提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型

 

2024-07-24 14:198183

评论

发布
暂无评论

专家观点:基于数智化GOT模型的流程制造业绩效管理

用友BIP

绩效管理

业财融合促进企业高质量发展

用友BIP

业财融合

大模型重塑软件设计,南京真我加入飞桨技术伙伴,大模型生态圈成员又添一员!

飞桨PaddlePaddle

大模型 星河社区 AI原生应用

00后如何组织双十一大促看这一篇就够了! | 京东云技术团队

京东科技开发者

监控 电商大促 容灾备份 企业号11月PK榜 大促备战

GreatSQL社区与Amazon、Facebook、Tencent共同被MySQL致谢

GreatSQL

greatsql

「Macos最新」XMind for mac v24.01中文版

加油,小妞!

思维导图 XMind

华为云康宁:携手伙伴,基于核心技术构筑健康可持续新生态

华为云开发者联盟

云计算 后端 华为云 大模型 华为云开发者联盟

打造数字经济全新引擎,用友iuap构建实体经济数智底座

用友BIP

数智底座

app小程序定制开发的优势

Geek_16d138

小程序开发 app定制开发

从热爱到深耕,全国Top10开源软件出品人探索“开源云上行”

华为云开发者联盟

开源 华为云 华为云开发者联盟 先锋开发者云上说

企业网站快速搭建的重点|软件定制app小程序建设

Geek_16d138

网站建设 小程序开发 app定制开发

租用VPS的终极指南:提升您的网络性能和灵活性

一只扑棱蛾子

VPS

光纤的跳线和尾纤

小齐写代码

软件测试/测试开发/人工智能丨视觉与图像识别自动化测试

测试人

人工智能 软件测试

极速进化,融合“新“生 | StarRocks Summit 2023 技术交流峰会圆满落幕

StarRocks

数据库 OLAP StarRocks

统一身份认证平台之SSO建设

权说安全

单点登录

10m带宽香港服务器的优势

Geek_f19a80

服务器

开发者的福利-Amazon CodeWhisperer

归来

大模型 Amazon CodeWhisperer AWS Toolkit

第9期 | 用友BIP项目云,助力企业投资类项目管理降本增收

用友BIP

项目管理

Embedding技术与应用(4): Embedding应用工程探析

Baihai IDP

人工智能 深度学习 程序员 AI 白海科技

鑫裕集团:引领建筑行业创新,开启数智化转型新篇章

用友BIP

建筑数智化

解锁未来:通过数字孪生和区块链进行物联网管理

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

达达埋点迁移京东子午线实践 | 京东云技术团队

京东科技开发者

埋点设计 企业号11月PK榜 埋点迁移 架构迁移

微信多开插件:WeChatHooks for mac

加油,小妞!

微信多开 WeChatHooks 微信插件

将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行_AI&大模型_褚杏娟_InfoQ精选文章