写点什么

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

作者:Daniel Dominguez

  • 2024-11-19
    北京
  • 本文字数:865 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。该模型改进了模型处理上下文,并尽可能减少了无关信息的干扰,从而增强注意力机制。

 

DIFF Transformer 的关键特性是其差分注意力机制。它通过对比两张独立的注意力图来计算注意力,这样模型就能更有效地关注输入的相关部分。这一改动提高了模型的准确性,特别是在问答和文本摘要等任务中的准确度。

 

该架构还提高了可扩展性,以更少的训练资源实现了与大型模型类似的性能。这种效率有利于处理较长的数据序列,使其很适合需要一次处理大量信息的任务。

 

实验表明,DIFF Transformer 在语言建模和信息检索等任务中都超越了传统 Transformer,在大型语言模型中提供了更高的性能和效率。它的设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用,同时还减少了激活异常值。这些改进提高了跨不同数据集的准确性,并提高了对输入顺序变化的鲁棒性,使 DIFF Transformer 更适合低资源环境。

 

下表将 DIFF Transformer 的零样本性能与几个经过良好训练的 Transformer 模型做了对比,对比模型包括 OpenLLaMA-v2-3B、StableLM-base-alpha-3B-v2 和 StableLM-3B-4E1T,最后 DIFF Transformer 显示出了更好或相当的结果。



爱好者和专业人士对其现实世界的应用表现出了兴趣,特别是在一些有理由通过更多计算资源来获得更高预测准确度的场景中。

 

数据科学家 Kuldeep Singh 在 X 上分享:


虽然谷歌的 Transformer 可能已经提到了“注意力就是你所需要的一切”,但微软和清华大学却带着 DIFF Transformer 来了,说“稀疏注意力就是你所需要的一切”。


AI 研究员 Manu Otel 写道:


但是,diff Transformer 有一个小小的权衡,它有两倍的 key heads。


围绕 DIFF Transformer 的讨论强调了计算成本和预测准确性之间的权衡。该模型需要执行两次注意力操作,这可能会减慢训练和推理的速度,但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果。

 

原文链接:

Microsoft and Tsinghua University Present DIFF Transformer for LLMs

2024-11-19 10:275641

评论

发布
暂无评论
发现更多内容

不谈虚的,平台即产品真的有那么好吗?

SEAL安全

运维 平台工程 PaaP

Mac怎么锁屏,快速锁定Mac电脑屏幕的方法

Rose

苹果电脑使用教程 Mac电脑锁屏 macos锁屏

Topaz Photo AI for mac常见问题 导入图像时冻结

Rose

苹果 macOS 14.4正式发布 9大重要功能值得关注

Rose

MacOS14系统 macOS 14 Sonoma 苹果电脑系统下载

Microsoft Outlook 2021电子邮件和日历,最佳效率神器!

Rose

Outlook2021 Microsoft Outlook Outlook许可证 mac邮箱软件

Web3.0数字货币去中心化交易所系统开发详细流程及方案

系统开发咨询1357O98O718

小游戏看广告项目系统开发详细步骤/需求设计/功能逻辑/源码指南

系统开发咨询1357O98O718

转向敏捷财务规划,实现更快更自信的决策

智达方通

企业管理 全面预算管理 财务规划 企业决策

区块链Web3.0合约代币交易所质押模式挖矿分红系统统开发指南教程及源码

系统开发咨询1357O98O718

阿里云边缘容器云帮助AI推理应用快速落地

MasterInTech

阿里云 容器云 边缘云 AI推理

解决 Parallels Desktop (PD)虚拟机不能连网的问题

Rose

PD虚拟机不能联网 Parallels Desktop 19 PD虚拟机授权秘钥

QSpace Pro 一款简洁高效的多窗格文件管理器,灵活且实用!

Rose

mac窗口管理工具 QSpace Pro QSpace Pro下载

使用Python捕获和处理异常日志

霍格沃兹测试开发学社

小游戏看广告项目系统开发流程步骤/需求逻辑/源码功能

系统开发咨询1357O98O718

华为云Stack8.3面向香港正式发布,六大亮点激发云上跃迁

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号2024年4月PK榜

6个实例带你解读TinyVue 组件库跨框架技术

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

Autodesk Maya 2025全新升级 适配Apple Silicon

Rose

Maya 2025中文版 玛雅2025新功能 玛雅2025破解 Maya 2025安装教程

Mac 版 Excel 和 Windows 版 Excel的区别

Rose

Excel Excel 许可证

Mac电脑上好用的设计绘图软件都有哪些,这6款一定不要错过!

Rose

mac设计软件 设计必备工具 苹果电脑设计软件合集 好用的平面设计软件

使用 Python 循环创建多个列表

霍格沃兹测试开发学社

浅谈Python在人工智能领域的应用

小齐写代码

神技能!如何用Python快速生成SQL语句?

霍格沃兹测试开发学社

Semantic Kernel开发实践:Semantic Kernel初体验

带双筷子🥢去旅行

AI编程 Azure OpenAI

最近很火的iOS模拟器Delta iPhone模拟器使用教程:安装、存档等

Rose

mac游戏模拟器 经典的GBA游戏iOS版资源 delta

共同探讨人工智能产业未来发展方向“2024长三角人工智能展会”

AIOTE智博会

人工智能展览会 人工智能展会 人工智能展

微软和清华大学为 LLM 提出了 DIFF Transformer 架构_AI&大模型_InfoQ精选文章