写点什么

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

作者:Daniel Dominguez

  • 2024-11-19
    北京
  • 本文字数:865 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。该模型改进了模型处理上下文,并尽可能减少了无关信息的干扰,从而增强注意力机制。

 

DIFF Transformer 的关键特性是其差分注意力机制。它通过对比两张独立的注意力图来计算注意力,这样模型就能更有效地关注输入的相关部分。这一改动提高了模型的准确性,特别是在问答和文本摘要等任务中的准确度。

 

该架构还提高了可扩展性,以更少的训练资源实现了与大型模型类似的性能。这种效率有利于处理较长的数据序列,使其很适合需要一次处理大量信息的任务。

 

实验表明,DIFF Transformer 在语言建模和信息检索等任务中都超越了传统 Transformer,在大型语言模型中提供了更高的性能和效率。它的设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用,同时还减少了激活异常值。这些改进提高了跨不同数据集的准确性,并提高了对输入顺序变化的鲁棒性,使 DIFF Transformer 更适合低资源环境。

 

下表将 DIFF Transformer 的零样本性能与几个经过良好训练的 Transformer 模型做了对比,对比模型包括 OpenLLaMA-v2-3B、StableLM-base-alpha-3B-v2 和 StableLM-3B-4E1T,最后 DIFF Transformer 显示出了更好或相当的结果。



爱好者和专业人士对其现实世界的应用表现出了兴趣,特别是在一些有理由通过更多计算资源来获得更高预测准确度的场景中。

 

数据科学家 Kuldeep Singh 在 X 上分享:


虽然谷歌的 Transformer 可能已经提到了“注意力就是你所需要的一切”,但微软和清华大学却带着 DIFF Transformer 来了,说“稀疏注意力就是你所需要的一切”。


AI 研究员 Manu Otel 写道:


但是,diff Transformer 有一个小小的权衡,它有两倍的 key heads。


围绕 DIFF Transformer 的讨论强调了计算成本和预测准确性之间的权衡。该模型需要执行两次注意力操作,这可能会减慢训练和推理的速度,但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果。

 

原文链接:

Microsoft and Tsinghua University Present DIFF Transformer for LLMs

2024-11-19 10:275586

评论

发布
暂无评论
发现更多内容

Android性能优化之启动优化实战篇!架构师必备技能

欢喜学安卓

android 程序员 面试 移动开发

机器学习 | 数据缩放与转换方法(1)

披头

雄安区块链实验室副主任李军:把区块链植入数字雄安

CECBC

区块链

WordPress统计文章浏览次数

Sakura

4月日更

当云计算飞向深空

脑极体

「Android Binder」AIDL中的 in / out 到底是啥?

李小四

android aidl binder inout

Flink TaskManager 内存模型详解

JasonLee实时计算

flink

“圈粉”行业龙头 数字人民币搅动投资江湖

CECBC

数字人民币

ARST- 日常打卡2

pjw

Android面试你必须要知道的那些知识,重难点整理

欢喜学安卓

android 程序员 面试 移动开发

GitHub开源城市结构公交路线数据可视化

不脱发的程序猿

GitHub 开源 智慧交通 4月日更 公交路线数据可视化

近期某大厂的技术面试题及答案整理

程序员架构进阶

面试 28天写作 算法面经 线上问题 4月日更

树莓派第一天的各种坑

IT蜗壳-Tango

4月日更

Hive相关的总结

大数据技术指南

hive 4月日更

【译】JavaScript: 带你彻底搞懂 this

清秋

JavaScript 翻译 4月日更 this

路过春天

小天同学

思考 个人感悟 4月日更

与JVM做朋友系列(1)你好,Class字节码

洛神灬殇

JVM class bytecode 字节码

架構設計訓練營作業1

海罗沃德

架构实战营

架构实战营-课后作业-模块1

聪明人的训练(三)

Changing Lin

4月日更

架构实战营-模块1-作业

泄矢的呼啦圈

架构实战营

Linux df命令

一个大红包

4月日更

关于Webpack4 基础配置介绍

Chalk

Vue webpack 4月日更

模块一作业

c

架构实战营

架构训练营模块1作业-江哲

江哲

作业

配置化开发是否可行?

顿晓

重构 配置化开发 4月日更

深度分析区块链是如何改变世界的

CECBC

区块链

【LeetCode】最长公共子序列Java题解

Albert

算法 LeetCode 4月日更

3.3 Go语言从入门到精通:包管理工具之Govendor

xcbeyond

Go 语言 4月日更 vendor

架构实战营 模块1 课后作业

唐高为

架构实战营

用 Sublime Text 编辑 Markdown

U2647

sublime-text markdown 4月日更

微软和清华大学为 LLM 提出了 DIFF Transformer 架构_AI&大模型_InfoQ精选文章