HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

两行代码解决大模型对话局限,港中文贾佳亚团队联合 MIT 发布超长文本扩展技术

  • 2023-10-09
    北京
  • 本文字数:2155 字

    阅读完需:约 7 分钟

大小:1.17M时长:06:48
两行代码解决大模型对话局限,港中文贾佳亚团队联合MIT发布超长文本扩展技术

近日,贾佳亚团队联合 MIT 发布了一项名为 LongLoRA 的新技术,只需两行代码、一台 8 卡 A100 机器,便可将 7B 模型的文本长度拓展到 100k tokens、70B 模型的文本长度拓展到 32k tokens。同时,该研究团队还发布了首个拥有 70B 参数量的长文本对话大语言模型 LongAlpaca。

LongLoRA 如何解决大模型对话缺陷

 

“上下文越长大模型越笨”是典型的大语言模型对话缺陷。在长文本处理过程中,之前大语言模型计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。针对这个问题,研究团队提出 LongLoRA 技术,并用分组和偏移的方式来对全局自注意力机制进行模拟。

 


简单来说,就是将长文本对应的 tokens 拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。而这个实现方法也非常简洁,仅两行代码即可完成。



LongLoRA 还探索了低秩训练的方式。原有的低秩训练方式,如 LoRA [5],无法在文本长度迁移上取得良好的效果。而 LongLoRA 在低秩训练的基础上,引入嵌入层 (Embedding layer 和 Normalization layers) 进行微调,从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。



进行不同长度文本扩展和训练时,LongLoRA、LoRA 和全参数微调不同技术的具体表现如下:

 

  • 在 Perplexity-困惑度上,原有 LoRA 方法的性能在不断恶化,而 LongLoRA 和全参数微调都能在各种文本长度下维持很好的效果;

  • 在显存消耗上,相比于全参数微调,LongLoRA 和原有 LoRA 都有大幅度的节省。例如,对于 8k 长度的模型训练,相比于全参数微调,LongLoRA 将显存消耗从 46.3GB 降低到 25.6GB;

  • 在训练时间上,对于 64k 长度的模型训练,相比于常规 LoRA,LongLoRA 将训练时间从 90~100 小时左右降低到 52.4 小时,而全参数微调超过 1000 小时。


目前,相关技术与模型已全部开源:

 

代码和 Demo 地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/pdf/2309.12307.pdf

 

长篇小说读后分析,LongAlpaca 完胜 Llama2

 

LongAlpaca 大语言模型,利用 LongLoRA 技术解决了对话缺陷问题。但大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

 

为此,研究团队特意收集了 9k 条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答,此外还挑选了 3k 的短问答语料与 9K 的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为 LongAlpaca-12k,目前已经开源。

 

在 LongAlpaca-12k 数据集基础上,研究团队对不同参数大小 7B、13B、70B 进行了训练和评测,开源模型包括 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B。下面是 LongLoRA 技术叠加 12K 问答语料的大模型 LongAlpaca 在论文方面表现:



让系统新读一篇论文,并根据 ICLR 的审查指南,对其提出修改意见,从而提升该论文的接收率。

 

LongAlpaca 的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。



让系统读两篇新的不同的论文,让 LongAlpaca 概括 ICLR 和 CVPR 两个会议之间的风格区别。

 

LongAlpaca 总结认为,CVPR 论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而 ICLR 的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

 

可以看出,经过训练的 LongAlpaca 模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

 

LongAlpaca 在颇高阅读和理解门槛的经济领域的解读表现:




根据国际货币基金组织从 2012 年到 2023 年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测。

 

LongAlpaca 表示,2023 年全球经济形势不明朗,跟 2022 年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

 

13B 参数的 LongAlpaca 和 Llama2 在读完长篇小说后的内容分析对比:



名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

 

LongAlpaca 给出了 5 点原因,大概可总结为: “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。”

 

而 Llama2 的回答较为简单:“虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。”Llama2 没有给出正确答案,并且还提出需要更多的内容信息。



让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

 

LongAlpaca 认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。

 

而 Llama2 的回答则是,“通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。”

 

从模型给出的答案可看出,一些模型如 Llama2,可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

2023-10-09 14:075360

评论

发布
暂无评论
发现更多内容

时空大数据与智能技术的时代共舞,百度地图给2020的答案

脑极体

互联网大厂有哪些分库分表的思路和技巧?

冰河

分布式数据库 分库分表 分布式存储 数据一致性 数据同步

侵犯著作权、判刑两年半的 CTO |法庭上的CTO(22)

赵新龙

CTO 法庭上的CTO

架构师训练营第一周作业

Mark

IPFS云算力挖矿系统开发详解案例及源码

系统开发咨询1357O98O718

云算力挖矿系统开发详解 云算力APP系统软件开发 云算力模式系统开发源码 云算力软件系统开发定制

开设赌场的CTO | 法庭上的CTO(23)

赵新龙

CTO 法庭上的CTO

散布消极言论被开除的总监 | 法庭上的CTO(25)

赵新龙

CTO 法庭上的CTO

鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机

刘悦的技术博客

Python 数据分析 特征选择 降维

盘点2020 | YourBatman 2020年感悟关键词:科比、裁员、管理层、活着

YourBatman

裁员 盘点2020 科比 管理层 活着

5G与4G的差别及应用

anyRTC开发者

人工智能 android AI 5G WebRTC

MySQL为Null会导致5个问题,个个致命!

王磊

MySQL MySQL使用

阿里面试:Mybatis中方法和SQL是怎么关联起来的呢?

田维常

mybatis

IPFS挖矿系统开发详情案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿软件系统开发

NoahTenet诺亚信条软件系统APP开发

系统开发

为了搞清楚类加载,竟然手撸JVM!

小傅哥

JVM 小傅哥 类加载 生命周期 加载机制

公安警务报警系统,二维码一键定位报警

t13823115967

二维码定位报警系统开发 微警务 二维码定位

SpringCloudGateway(一) 概览

Java SpringcloudGateway

AAAI 2021论文:利用深度元学习对城市销量进行预测(附论文下载)

京东科技开发者

数据库 大数据 时序预测

生产环境全链路压测建设历程 23:FAQ 3、4 适配改造,目标压力

数列科技杨德华

全链路压测 七日更

总结2020:5个月出版两本书,日更公众号是一种怎样的体验?

冰河

程序员 程序人生 年终总结

CKLC挖矿矿机系统开发案例介绍

系统开发咨询1357O98O718

CKLC挖矿矿机系统软件开发 CKLC挖矿矿机系统开发 CKLC挖矿矿机APP系统开发

分享一个普通程序员的“沪漂”六年的历程以及感想

程序员老猫

回忆录 经历 年终总结 沪漂 上海买房

被砍伤的技术VP | 法庭上的CTO(24)

赵新龙

CTO 法庭上的CTO

Spring cloud Gateway(二) 一个Http请求的流程解析

Java 网关

Java多线程编程核心技术

田维常

多线程

犯”集资诈骗罪“、二审判6年的CTO | 法庭上的CTO(21)

赵新龙

CTO 法庭上的CTO

母鸡下蛋实例:多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

叫练

多线程与高并发 Wait lock 线程互斥 await

盘点2020 | 2021,Begin Again !

double U

大前端 盘点2020

10次面试,2份offer —— 大龄程序员 2020 求职记录

escray

面试 架构师训练营第 1 期

IPFS挖矿矿机系统开发方案丨IPFS挖矿矿机源码案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿系统开发搭建

智慧社区综合应用平台搭建,社区管理解决方案

t13823115967

智慧社区管理平台开发 智慧平安社区平台建设

两行代码解决大模型对话局限,港中文贾佳亚团队联合MIT发布超长文本扩展技术_生成式 AI_褚杏娟_InfoQ精选文章