部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。
为应对这一挑战,近日 Yandex Research、IST Austria、KAUST 和 Neural Magic 的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和 PV-Tuning。
AQLM 将每个模型参数的位数减少到 2 - 3 位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使 AQLM 在压缩技术领域设立了新的基准。
AQLM 的实用性通过其在 GPU 和 CPU 架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM 可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。
PV-Tuning 是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning 在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如 Llama 和 Mistral)的 1-2 位向量量化中表现优于以前的方法。通过利用 PV-Tuning,研究人员实现了第一个针对 Llama 2 模型的 2 位参数的帕累托最优量化。
当 AQLM 和 PV-Tuning 结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。
这些方法的有效性通过对流行的开源模型如 LLama 2、Mistral 和 Mixtral 的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试 WikiText2 和 C4 评估了答案质量。即使模型被压缩到了 12.5%时,它们的答案质量仍保持在 95%。
*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为 8 倍。
据介绍,新方法也为开发和部署专有语言模型和开源 LLM 的公司提供了巨大的资源节约。例如,压缩后的 130 亿参数的 Llama 2 模型只需 1 个 GPU 即可运行,相比之下,原模型需要 4 个 GPU,从而使硬件成本降低最高达 8 倍。此举使得初创公司、个人研究者和 LLM 爱好者能够在他们的日常计算机上运行先进的 LLM,譬如 Llama。
AQLM 和 PV-Tuning 使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。
此外,使用这些方法压缩的模型能够以快达 4 倍的速度运行,因为它们需要的计算量减少了。
目前,全球的开发人员和研究人员现在可以在GitHub上使用 AQLM 和 PV-Tuning。作者提供的演示材料为有效训练各种应用的压缩 LLM 提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型。
评论