HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

作者:Daniel Dominguez

  • 2024-11-19
    北京
  • 本文字数:865 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软 AI 和清华大学的研究人员提出了一种名为差分 Transformer(DIFF Transformer)的新架构,旨在提高大语言模型的性能。该模型改进了模型处理上下文,并尽可能减少了无关信息的干扰,从而增强注意力机制。

 

DIFF Transformer 的关键特性是其差分注意力机制。它通过对比两张独立的注意力图来计算注意力,这样模型就能更有效地关注输入的相关部分。这一改动提高了模型的准确性,特别是在问答和文本摘要等任务中的准确度。

 

该架构还提高了可扩展性,以更少的训练资源实现了与大型模型类似的性能。这种效率有利于处理较长的数据序列,使其很适合需要一次处理大量信息的任务。

 

实验表明,DIFF Transformer 在语言建模和信息检索等任务中都超越了传统 Transformer,在大型语言模型中提供了更高的性能和效率。它的设计增强了长上下文建模、关键信息检索、幻觉缓解和上下文学习等实际应用,同时还减少了激活异常值。这些改进提高了跨不同数据集的准确性,并提高了对输入顺序变化的鲁棒性,使 DIFF Transformer 更适合低资源环境。

 

下表将 DIFF Transformer 的零样本性能与几个经过良好训练的 Transformer 模型做了对比,对比模型包括 OpenLLaMA-v2-3B、StableLM-base-alpha-3B-v2 和 StableLM-3B-4E1T,最后 DIFF Transformer 显示出了更好或相当的结果。



爱好者和专业人士对其现实世界的应用表现出了兴趣,特别是在一些有理由通过更多计算资源来获得更高预测准确度的场景中。

 

数据科学家 Kuldeep Singh 在 X 上分享:


虽然谷歌的 Transformer 可能已经提到了“注意力就是你所需要的一切”,但微软和清华大学却带着 DIFF Transformer 来了,说“稀疏注意力就是你所需要的一切”。


AI 研究员 Manu Otel 写道:


但是,diff Transformer 有一个小小的权衡,它有两倍的 key heads。


围绕 DIFF Transformer 的讨论强调了计算成本和预测准确性之间的权衡。该模型需要执行两次注意力操作,这可能会减慢训练和推理的速度,但有人猜测这是否可以以更少的训练迭代或更少的数据带来更好的结果。

 

原文链接:

Microsoft and Tsinghua University Present DIFF Transformer for LLMs

2024-11-19 10:271

评论

发布
暂无评论

Zookeeper系列-我保证!样样聚到!没有一句废话,今日头条面试经历

Java 程序员 后端

【Java 强化】代码规范,springcloud视频

Java 程序员 后端

【Java8 新特性 5】Java8 stream的详细用法,java开发面试视频

Java 程序员 后端

【java后台面经】春招&秋招求职大佬面试经验分享,java面试线程问题

Java 程序员 后端

XML简介,kafka教程尚谷

Java 程序员 后端

《重构 改善既有代码的设计 3》代码的可理解性应该是我们虔诚追求的目标

Java 程序员 后端

《零基础》MySQL 连接的使用(二十),开发多年HashMap原理不知道

Java 程序员 后端

《黑马程序员》通讯录管理系统实战,终于搞明白了

Java 程序员 后端

「Java」手把手理解CAS实现原理,学习linux编程

Java 程序员 后端

【Java技术探索】,区块链技术kafka

Java 程序员 后端

Tomcat目录结构,java基础教程第三版

Java 程序员 后端

uniapp props、$ref、$emit,如何保证高可用

Java 程序员 后端

volatile 和原子类的异同,画个图理解一下,面试官让我下周来上班

Java 程序员 后端

YYDS,瞬间秒杀全网,这套Java面试笔记可以解决90,kafka基础架构消费模式

Java 程序员 后端

「Java」几种典型的内存溢出案例,linux视频教程迅雷下载

Java 程序员 后端

vivo官网商城开发团队:同城双活与异地多活架构分析,java面试问项目流程

Java 程序员 后端

Zookeeper(从7个方面来了解Zookeeper基础概念),java新技术网站

Java 程序员 后端

《项目开发团队分配管理软件》,nginx面试题阿里

Java 程序员 后端

Web开发基础:JavaScript常用类、面向对象和BOM,java中锁的实现原理

Java 程序员 后端

“996”为什么还没实行(1),java零基础教程视频

Java 程序员 后端

“996”为什么还没实行,mybatis从入门到精通电子书

Java 程序员 后端

【Java从0到架构师】学习记录,BAT大厂面试基础题集合

Java 程序员 后端

【 大厂必考之JVM】01,kafka原理和面试笔试题目

Java 程序员 后端

【Java 多线程 3】线程池2,linux内核编程进阶篇pdf

Java 程序员 后端

【Java知识点详解 10】为何要配置环境变量(1),java从入门到精通第五版电子书百度云

Java 程序员 后端

VBA常用语法,操作系统原理与linux实践教程申丰山

Java 程序员 后端

「并发原理专题」AQS的技术体系之CLH,java基础重点知识点

Java 程序员 后端

「源码解析」 消息队列Kombu基本架构综述,透过根源从而探究红黑树的本质

Java 程序员 后端

VIVO一面竟然翻车,含泪整理了这些Java面经,看完我悟了

Java 程序员 后端

Zookeeper原理篇-Zookeeper启动流程分析,从底层开始带你了解并发编程

Java 程序员 后端

【95 后 Java 程序员的大厂梦】三年开发经验,springboot开源项目讲解

Java 程序员 后端

微软和清华大学为 LLM 提出了 DIFF Transformer 架构_AI&大模型_InfoQ精选文章