写点什么

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

作者:Daniel Dominguez

  • 2024-11-19
    北京
  • 本文字数:865 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。该模型改进了模型处理上下文,并尽可能减少了无关信息的干扰,从而增强注意力机制。

 

DIFF Transformer 的关键特性是其差分注意力机制。它通过对比两张独立的注意力图来计算注意力,这样模型就能更有效地关注输入的相关部分。这一改动提高了模型的准确性,特别是在问答和文本摘要等任务中的准确度。

 

该架构还提高了可扩展性,以更少的训练资源实现了与大型模型类似的性能。这种效率有利于处理较长的数据序列,使其很适合需要一次处理大量信息的任务。

 

实验表明,DIFF Transformer 在语言建模和信息检索等任务中都超越了传统 Transformer,在大型语言模型中提供了更高的性能和效率。它的设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用,同时还减少了激活异常值。这些改进提高了跨不同数据集的准确性,并提高了对输入顺序变化的鲁棒性,使 DIFF Transformer 更适合低资源环境。

 

下表将 DIFF Transformer 的零样本性能与几个经过良好训练的 Transformer 模型做了对比,对比模型包括 OpenLLaMA-v2-3B、StableLM-base-alpha-3B-v2 和 StableLM-3B-4E1T,最后 DIFF Transformer 显示出了更好或相当的结果。



爱好者和专业人士对其现实世界的应用表现出了兴趣,特别是在一些有理由通过更多计算资源来获得更高预测准确度的场景中。

 

数据科学家 Kuldeep Singh 在 X 上分享:


虽然谷歌的 Transformer 可能已经提到了“注意力就是你所需要的一切”,但微软和清华大学却带着 DIFF Transformer 来了,说“稀疏注意力就是你所需要的一切”。


AI 研究员 Manu Otel 写道:


但是,diff Transformer 有一个小小的权衡,它有两倍的 key heads。


围绕 DIFF Transformer 的讨论强调了计算成本和预测准确性之间的权衡。该模型需要执行两次注意力操作,这可能会减慢训练和推理的速度,但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果。

 

原文链接:

Microsoft and Tsinghua University Present DIFF Transformer for LLMs

2024-11-19 10:275549

评论

发布
暂无评论
发现更多内容

【Meetup 预告】RocketMQ OpenMLDB Connector,实时数据到特征工程的高速传输

第四范式开发者社区

机器学习 数据库 开源 云原生 特征平台

"不敢去怀疑代码,又不得不怀疑代码"记一次网络请求超时分析

华为云开发者联盟

前端 开发 HTTP 华为云

2022年中国重卡智能化升级专题研究

易观分析

智能汽车

ironSource Luna 推出苹果搜索广告限时优惠,注册即享3个月免费服务

科技热闻

Java不支持协程?那是你不知道Quasar!

码农参上

协程 Java后端

机器学习实践:基于支持向量机算法对鸢尾花进行分类

华为云开发者联盟

人工智能 模型 华为云

企业级软件开发新模式:低代码

力软低代码开发平台

DAP事实表加工汇总功能应用说明

agileai

数据分析 数据集成 数仓建设 基础事实表 汇总事实表

Development status of full color LED display

Dylan

LED display full-color LED display Outdoor LED display

web技术分享| 【高德地图】实现自定义的轨迹回放

anyRTC开发者

前端 Web 音视频 地图 轨迹回放

R 和 Python用于统计学分析,哪个更好?

Jackpop

洞见科技牵头的全球「首个」IEEE隐私计算「互联互通」国际标准正式启动

洞见科技

隐私计算 IEEE 互联互通

视频爆炸时代,谁在支撑视频生态网高速运行?

郑州埃文科技

flow IP地址 NetFlow

知识管理在业务中的价值如何体现

小炮

知识管理

入驻快讯|欢迎极狐GitLab 正式入驻 InfoQ 写作社区!

极狐GitLab

gitlab git 学习 #GitLab DevOps工具

10款超牛Vim插件,爱不释手了

Jackpop

MongoDB在腾讯零售优码中的应用

杨亚洲(专注MongoDB及高性能中间件)

mongodb 分布式数据库mongodb 构架 NoSQL 数据库 数据库·

安全信得过!天翼云数据安全管理平台通过评测

天翼云开发者社区

如何为政企移动办公加上一道“安全锁”?

WorkPlus

VHEDT业务发展框架

凌晞

框架 构架

网页制作存在的一些难点

源字节1号

wallys/WiFi6 MiniPCIe Module 2T2R 2×2.4GHz 2x5GHz

wallys-wifi6

wifi6 mtk7915 mtk7975

新版负载均衡WebClient CRUD

Damon

微服务架构 微服务框架 6月月更

IntelliJ IDEA中有什么让你相见恨晚的好用插件?

Jackpop

Vue-17-组件

Python研究所

6月月更

短视频源码开发,优质的短视频源码需要做好哪几点?

开源直播系统源码

软件开发 短视频源码

TDengine 连接器上线 Google Data Studio 应用商店

TDengine

tdengine 时序数据库 Google Data Studio

畅享高性能计算!天翼云HPC解决方案来了

天翼云开发者社区

天翼云乘风新基建,构建数字化转型“4+2”能力体系

天翼云开发者社区

什么是RESTful,REST api设计时应该遵守什么样的规则?

wljslmz

RESTful 6月月更

uni-app进阶之https请求方式/状态管理【day11】

恒山其若陋兮

6月月更

微软和清华大学为 LLM 提出了 DIFF Transformer 架构_AI&大模型_InfoQ精选文章