写点什么

将 AI 部署成本降低 8 倍!Yandex 发布 LLM 极限压缩方法:Llama 2 只需 1 个 GPU 即可运行

  • 2024-07-24
    北京
  • 本文字数:1155 字

    阅读完需:约 4 分钟

大小:603.96K时长:03:26
将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行

部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。

 

为应对这一挑战,近日 Yandex Research、IST Austria、KAUST 和 Neural Magic 的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和 PV-Tuning。

 

AQLM 将每个模型参数的位数减少到 2 - 3 位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使 AQLM 在压缩技术领域设立了新的基准。

 

AQLM 的实用性通过其在 GPU 和 CPU 架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM 可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。

 

PV-Tuning 是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning 在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如 Llama 和 Mistral)的 1-2 位向量量化中表现优于以前的方法。通过利用 PV-Tuning,研究人员实现了第一个针对 Llama 2 模型的 2 位参数的帕累托最优量化。

 

当 AQLM 和 PV-Tuning 结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。

 

这些方法的有效性通过对流行的开源模型如 LLama 2、Mistral 和 Mixtral 的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试 WikiText2 和 C4 评估了答案质量。即使模型被压缩到了 12.5%时,它们的答案质量仍保持在 95%。

 

模型

参数数量

压缩后回答质量

LLama 2

7 billion

88%

LLama 2

13 billion

 

97%

LLama 2

70 billion

99%

LLama 3

8 billion

92%

LLama 3

70 billion

93%

Mistral

8 billion

96%

所有测试模型的平均值

95%

 

*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为 8 倍。

 

据介绍,新方法也为开发和部署专有语言模型和开源 LLM 的公司提供了巨大的资源节约。例如,压缩后的 130 亿参数的 Llama 2 模型只需 1 个 GPU 即可运行,相比之下,原模型需要 4 个 GPU,从而使硬件成本降低最高达 8 倍。此举使得初创公司、个人研究者和 LLM 爱好者能够在他们的日常计算机上运行先进的 LLM,譬如 Llama。

 

AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。

 

此外,使用这些方法压缩的模型能够以快达 4 倍的速度运行,因为它们需要的计算量减少了。

 

目前,全球的开发人员和研究人员现在可以在GitHub上使用 AQLM 和 PV-Tuning。作者提供的演示材料为有效训练各种应用的压缩 LLM 提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型

 

2024-07-24 14:198347

评论

发布
暂无评论

Spring 注入集合

小万哥

Go golang 后端 开发 开发程序员

Java整合Thymeleaf和wkhtmltopdf实现HTML导出PDF

落日楼台H

PDF thymeleaf wkhtmltopdf htmltopdf

华为云云耀云服务器L实例:打造轻量级行业解决方案,助力企业轻松上云

YG科技

蓝易云:如何在 Rocky Linux 上安装 Apache Kafka?

百度搜索:蓝易云

Apache 云计算 kafka Linux 运维

大模型时代的 AI 原生云

Baidu AICLOUD

AI 原生云

kill -15 与kill -9的区别

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

JVM heap + non-heap是否等于 RSS?

虚实的星空

华为云云耀云服务器L实例:轻量级应用服务器也能有高性能,助力业务快速发展

YG科技

大规模流量下的云边端一体化流量调度体系

火山引擎边缘云

边缘计算 数字孪生 边缘云 火山引擎边缘云

k8s优雅停服

tiandizhiguai

DevOps kubernetes 运维

ARTS 打卡 Week4

JimDeng

ARTS 打卡计划 #ARTS 左耳朵耗子

蓝易云:如何在Ubuntu 22.04上安装Linux 内核 详细教程!

百度搜索:蓝易云

云计算 Linux ubuntu 运维 云服务器

图解Kafka消费者客户端分区分配策略

石臻臻的杂货铺

Kafk

华为云云耀云服务器L实例:打造企业级高效稳定的基础云服务架构

YG科技

云服务器选购指南:一步步指导企业如何挑选合适的云服务器

YG科技

安全可靠的文件传输服务助力完成更高效的医疗保健工作(下)

镭速

文件传输服务 医疗保健

研发管理的挑战、本原与方案

iSoftBook

项目管理 软件工程 研发管理平台 敏捷方法 研发云平台

大语言模型测试

赤色闪电

实现 LangChain 版本的 AutoGPT 项目的图形化界面

赤色闪电

华为云云耀云服务器L实例:游戏开发者的高性能轻应用服务器之选

YG科技

中小企业如何借助华为云云耀云服务器L实例迅速开展业务?

YG科技

数划云受邀参加2023甄云科技用户大会并发表主题演讲

数划云

企业经营管理 全面预算 绩效分析

国产“芯”突破 | 优博讯携手海思推出AI新零售创新方案

Geek_2d6073

NFT平台搭建,如何开发一个NFT平台

V\TG【ch3nguang】

安全可靠的文件传输服务助力完成更高效的医疗保健工作(上)

镭速

文件传输服务 医疗保健

华为云云耀云服务器L实例:智能化、高性价比的轻量级云服务器

YG科技

将AI部署成本降低8倍!Yandex 发布LLM极限压缩方法:Llama 2 只需1个GPU 即可运行_AI&大模型_褚杏娟_InfoQ精选文章