写点什么

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

作者:Daniel Dominguez

  • 2024-11-19
    北京
  • 本文字数:865 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。该模型改进了模型处理上下文,并尽可能减少了无关信息的干扰,从而增强注意力机制。

 

DIFF Transformer 的关键特性是其差分注意力机制。它通过对比两张独立的注意力图来计算注意力,这样模型就能更有效地关注输入的相关部分。这一改动提高了模型的准确性,特别是在问答和文本摘要等任务中的准确度。

 

该架构还提高了可扩展性,以更少的训练资源实现了与大型模型类似的性能。这种效率有利于处理较长的数据序列,使其很适合需要一次处理大量信息的任务。

 

实验表明,DIFF Transformer 在语言建模和信息检索等任务中都超越了传统 Transformer,在大型语言模型中提供了更高的性能和效率。它的设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用,同时还减少了激活异常值。这些改进提高了跨不同数据集的准确性,并提高了对输入顺序变化的鲁棒性,使 DIFF Transformer 更适合低资源环境。

 

下表将 DIFF Transformer 的零样本性能与几个经过良好训练的 Transformer 模型做了对比,对比模型包括 OpenLLaMA-v2-3B、StableLM-base-alpha-3B-v2 和 StableLM-3B-4E1T,最后 DIFF Transformer 显示出了更好或相当的结果。



爱好者和专业人士对其现实世界的应用表现出了兴趣,特别是在一些有理由通过更多计算资源来获得更高预测准确度的场景中。

 

数据科学家 Kuldeep Singh 在 X 上分享:


虽然谷歌的 Transformer 可能已经提到了“注意力就是你所需要的一切”,但微软和清华大学却带着 DIFF Transformer 来了,说“稀疏注意力就是你所需要的一切”。


AI 研究员 Manu Otel 写道:


但是,diff Transformer 有一个小小的权衡,它有两倍的 key heads。


围绕 DIFF Transformer 的讨论强调了计算成本和预测准确性之间的权衡。该模型需要执行两次注意力操作,这可能会减慢训练和推理的速度,但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果。

 

原文链接:

Microsoft and Tsinghua University Present DIFF Transformer for LLMs

2024-11-19 10:275677

评论

发布
暂无评论
发现更多内容

不想做经理的程序员

escray

学习 面试

追逐影子的人,最终只会是影子

小隐乐乐

ARTS 挑战打卡第十周(200713-200719)

老胡爱分享

ARTS 打卡计划

3.7亿条保单数据怎么分析?这个大数据平台有绝招

华为云开发者联盟

大数据 hadoop 数据湖 FusionInsight Kyligence

ARTS 挑战打卡第十三周(200803-200809)

老胡爱分享

ARTS 打卡计划

【程序员自救指南】一个证书,让我哄好了小师妹

华为云开发者联盟

网络安全 浏览器 华为云 SSL证书 安全证书

英特尔大小核试水 将推出8+8+1架构酷睿处理器

E科讯

一行代码实现简易服务器并共享文件

wangkx

Python 共享文件

七夕情人节,程序员的表白方式简直太秀了!

程序员生活志

程序员 七夕

ARTS 挑战打卡第十二周(200727-200802)

老胡爱分享

ARTS 打卡计划

高效程序员的45个习惯:敏捷开发修炼之道(5)

石云升

敏捷开发 熵增 用代码沟通

SpreadJS 纯前端表格控件应用案例:货运代理客户服务平台

葡萄城技术团队

7. Jackson用树模型处理JSON是必备技能,不信你看

YourBatman

json Jackson ObjectMapper 树模型

新晋“网红”Cat1 是什么

华为云开发者联盟

后端 物联网 华为云 无线通信 Cat.1

知识点:操作系统异常的分类

wangkx

操作系统 异常

linux入门系列11--Centos7网络服务管理

黑马腾云

Linux centos 网络配置 运维工程师

linux入门系列14--ssh服务及主机远程管理

黑马腾云

Linux centos linux运维 红帽认证

七夕节来啦!AI一键生成情诗,去发给你的女朋友吧!

华为云开发者联盟

AI 智能高效 华为云 modelarts 七夕

13年毕业,用两年时间从外包走进互联网大厂!

小傅哥

成长 小傅哥 经历 工作 入职

LeetCode题解:20. 有效的括号,for循环replace,JavaScript,详细注释

Lee Chen

大前端 LeetCode

linux入门系列12--磁盘管理之分区、格式化与挂载

黑马腾云

Linux centos 编辑器 linux运维 vi/vim

linux入门系列13--磁盘管理之RAID、LVM技术

黑马腾云

Linux centos raid lvm 磁盘挂载

linux入门系列15--文件传输之vsftp服务

黑马腾云

Linux centos linux操作 linux运维

惠普精灵家族助力IMC上海站,极致体验尽享电竞狂欢

E科讯

Python实现一个计时功能的装饰器

wangkx

Python 装饰器

「零代码」搭建简易招聘管理系统

Tony Wu

效率工具 SaaS 招聘管理 HRIS

正向代理与反向代理

wangkx

nginx 反向代理 代理 正向代理与反向代理 Proxy

百度联合发布全球最大中文自然语言处理数据共建计划“千言”

百度大脑

人工智能 百度 nlp 百度大脑

Docker 最常用的镜像命令和容器命令

哈喽沃德先生

Docker 容器 微服务

java安全编码指南之:基础篇

程序那些事

Java 安全编码 安全编码指南

ARTS 挑战打卡第十一周(200720-200726)

老胡爱分享

ARTS 打卡计划

微软和清华大学为 LLM 提出了 DIFF Transformer 架构_AI&大模型_InfoQ精选文章