两行代码解决大模型对话局限，港中文贾佳亚团队联合MIT发布超长文本扩展技术_生成式 AI_褚杏娟



 写点什么



大小：1.17M时长：06:48

近日，贾佳亚团队联合 MIT 发布了一项名为 LongLoRA 的新技术，只需两行代码、一台 8 卡 A100 机器，便可将 7B 模型的文本长度拓展到 100k tokens、70B 模型的文本长度拓展到 32k tokens。同时，该研究团队还发布了首个拥有 70B 参数量的长文本对话大语言模型 LongAlpaca。

LongLoRA 如何解决大模型对话缺陷

“上下文越长大模型越笨”是典型的大语言模型对话缺陷。在长文本处理过程中，之前大语言模型计算量的主要开销集中在自注意力机制(self-attention)，其开销随着文本长度成平方次地增加。针对这个问题，研究团队提出 LongLoRA 技术，并用分组和偏移的方式来对全局自注意力机制进行模拟。

简单来说，就是将长文本对应的 tokens 拆分成不同的组，在每组内部做自注意力计算，而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量，又可以维持全局感受野的传递。而这个实现方法也非常简洁，仅两行代码即可完成。

LongLoRA 还探索了低秩训练的方式。原有的低秩训练方式，如 LoRA [5]，无法在文本长度迁移上取得良好的效果。而 LongLoRA 在低秩训练的基础上，引入嵌入层 (Embedding layer 和 Normalization layers) 进行微调，从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。

进行不同长度文本扩展和训练时，LongLoRA、LoRA 和全参数微调不同技术的具体表现如下：

在 Perplexity-困惑度上，原有 LoRA 方法的性能在不断恶化，而 LongLoRA 和全参数微调都能在各种文本长度下维持很好的效果；
在显存消耗上，相比于全参数微调，LongLoRA 和原有 LoRA 都有大幅度的节省。例如，对于 8k 长度的模型训练，相比于全参数微调，LongLoRA 将显存消耗从 46.3GB 降低到 25.6GB；
在训练时间上，对于 64k 长度的模型训练，相比于常规 LoRA，LongLoRA 将训练时间从 90～100 小时左右降低到 52.4 小时，而全参数微调超过 1000 小时。

目前，相关技术与模型已全部开源：

代码和 Demo 地址：https://github.com/dvlab-research/LongLoRA

论文地址：https://arxiv.org/pdf/2309.12307.pdf

长篇小说读后分析，LongAlpaca 完胜 Llama2

LongAlpaca 大语言模型，利用 LongLoRA 技术解决了对话缺陷问题。但大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此，研究团队特意收集了 9k 条长文本问答语料对，包含针对名著、论文、深度报道甚至财务报表的各类问答，此外还挑选了 3k 的短问答语料与 9K 的长问答语料混合训练，让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为 LongAlpaca-12k，目前已经开源。

在 LongAlpaca-12k 数据集基础上，研究团队对不同参数大小 7B、13B、70B 进行了训练和评测，开源模型包括 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B。下面是 LongLoRA 技术叠加 12K 问答语料的大模型 LongAlpaca 在论文方面表现：

让系统新读一篇论文，并根据 ICLR 的审查指南，对其提出修改意见，从而提升该论文的接收率。

LongAlpaca 的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向，重点呈现关键贡献和影响，论文被接受的机会将得到提高。

让系统读两篇新的不同的论文，让 LongAlpaca 概括 ICLR 和 CVPR 两个会议之间的风格区别。

LongAlpaca 总结认为，CVPR 论文倾向更具结构性和实验性的风格，专注于实用性和技术性。而 ICLR 的论文风格更加灵活，侧重关键的理论分析和数学推导，而非标准格式。

可以看出，经过训练的 LongAlpaca 模型已经可以很轻松地接受新的长篇学术论文，在学术相关问题的回答上相当精准。

LongAlpaca 在颇高阅读和理解门槛的经济领域的解读表现：

根据国际货币基金组织从 2012 年到 2023 年的全球经济展望的概述合集，对经济形势进行逐年总结以及对未来经济趋势进行预测。

LongAlpaca 表示，2023 年全球经济形势不明朗，跟 2022 年相比，增长预计放缓；未来几年，全球经济扩张速度偏温和并将低于预期，而地缘政治紧张、金融市场波动等大的挑战依然存在，需通过多边合作和结构性改革小心应对。

13B 参数的 LongAlpaca 和 Llama2 在读完长篇小说后的内容分析对比：

名著《西游记》中，为什么孙悟空在大闹天宫时很厉害，但取经路上却屡屡受挫？

LongAlpaca 给出了 5 点原因，大概可总结为： “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移，他获得了智慧、经验和战友，使他最终战胜了最强大的敌人。”

而 Llama2 的回答较为简单：“虽然他确实大闹天宫，但说他代表着不败的力量并不一定准确。事实上，他最终在西游记中被强大的唐三藏打败。”Llama2 没有给出正确答案，并且还提出需要更多的内容信息。

让系统新读一次《三体》，然后问第一部中，叶文洁为什么要联系外星人，而后期又为什么后悔？

LongAlpaca 认为，叶文洁最初接触外星人是出于理想主义和复仇，但随着时间的推移，她对人类的看法发生了变化，意识到自己可能给全人类带来的危险，她的悔恨与日俱增。

而 Llama2 的回答则是，“通过与外星人的互动，她希望能更深入地了解宇宙的本质，以及自己在宇宙中的位置。叶文洁逐渐意识到，外星人和他们的技术并不能解决她的问题。”

从模型给出的答案可看出，一些模型如 Llama2，可能在预训练过程中见过相关小说，但如果在提问时进行仅根据小说题目进行短文本提问的话，回答并不理想。

发布

暂无评论

创作场景

两行代码解决大模型对话局限，港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

LongLoRA 如何解决大模型对话缺陷

长篇小说读后分析，LongAlpaca 完胜 Llama2

评论

Masa Blazor in Blazor Day

如何有效的对云专线进行测速

天翼云云主机快照、云硬盘备份、云主机备份之间的区别

投资自助洗车机要多少钱？看情况

自助洗车机厂家如何选？要注意什么

智能运维时代，如何做好日志全生命周期管理

Google如何申请客户端ID并调试代码？

巧用天翼云盘备份云主机数据

安全网关是啥什么东西？有什么优势？与堡垒机的区别是什么？

RocketMQ-Streams架构设计浅析

社区文章｜MOSN 社区性能分析利器——Holmes 原理浅析

对话达梦副总经理冯源 | 假如你身处被“科技制裁”的俄罗斯-墨天轮专访

「技术人生」专栏作者来直播间啦！欢迎来提问

IP（定位数据库）地理位置查找真的能有效帮助阻止网络攻击吗？

解析天翼云IPsec VPN和SSL VPN的区别

K8S Pod 新安全策略 Pod Security Admission 介绍 | K8S Internals 系列第一期

WebApi性能优化

netty系列之:netty中的核心编码器base64

产品宣传手册是如何制作的?

招商银行 KubeVela 离线部署实践

10元自助洗车机器多少钱一台？

小区自助洗车机赚钱吗？想投几台

龙蜥社区第七次运营委员会会议顺利召开

【等保】等级保护定级对象只定信息系统吗？还是说定单位？

自助洗车机设备一台多少钱划算

大巧不工，袋鼠云正式开源大数据任务调度平台——Taier（太阿）！

16 台服务器达成 1000 万 tpmC！挑战分布式数据库性能极限

到底为什么你我都要了解社会工程学

企业如何突破数据治理临界点，四大数据要素深度剖析

聚焦丨看泛建材巨头如何实现数字化改造，推动企业业务增长

天翼云CDN最佳实践

创作场景

两行代码解决大模型对话局限，港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

LongLoRA 如何解决大模型对话缺陷

长篇小说读后分析，LongAlpaca 完胜 Llama2

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载