写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189065

评论

发布
暂无评论
发现更多内容

运营管理

Qien Z.

5月日更

AI年中钜惠来袭—全场低至6折 企业新客1元优享福利翻倍

百度大脑

福利 Iphone12

极光开发者周刊【No.0528】

极光JIGUANG

程序员 开发者 开发者工具

从 Object.assign 开始了解ES2015

devpoint

浅拷贝和深拷贝 ECMAScript 6 assign

全国首创“区块链+信用”平台即将上线

CECBC

专家谈 AI:2021 年人工智能发展趋势(下)

容光

【得物技术】得物App分发平台的探索建设历程

得物技术

效率 平台 实践 心路历程 迭代

5分钟速读之Rust权威指南(十二)

wzx

rust

虚拟机如何实现synchronized

wzh

虚拟机 并发 synchronized Java EE

使用Docker运行DataX定时全量备份关键数据表

白粥

DataX 数据表备份

云原生加速落地,金融行业应用上云来打样儿

BoCloud博云

云原生

🔎【Java 源码探索】深入浅出的分析ThreadLocal

洛神灬殇

Java 多线程 ThreadLocal 5月日更 ThreadLocalMap

获5项大奖,发布《云计算开放应用架构标准》,阿里云持续领航云原生

阿里巴巴中间件

云计算 最佳实践 云原生 案例 白皮书

100W点击 10w人获取,阿里Java高级面试题及答案 到底有多强

???

面试 java真题分享

网络攻防学习笔记 Day28

穿过生命散发芬芳

5月日更 网络攻防

智慧金融发展-转述

容光

2021年CES十款智能家居黑科技产品

容光

人工智能

Go 并发编程-channel 连接一切

Rayjun

Go 语言

智能IP先锋:从园区网络智能变革,到数字化转型新突破

脑极体

区块链与数字化转型的关系

CECBC

2021北京人工智能展览会-转述

容光

人生算法:找到可复制的最小内核

石云升

读书笔记 5月日更 人生算法

2021智能制造、智慧金融、智能安全有何发展趋势

容光

AI 金融

AI、智能健康与货币技术迎来大爆炸

容光

区块链 AI

列举出常见的Java面试题,我靠这个在春招拿到了阿里的offer

???

面试 Java面经 java真题分享

python脚本编写——自动剪切移动文件夹

YUKI0506

盘点golang中的开发神器

捉虫大师

Go 语言

Golang最细节篇— struct{} 空结构体究竟是啥?

奇伢云存储

云存储 Go 语言

OKR 八问 —— 关于 OKR 的常见问题与思考

CODING DevOps

团队管理 DevOps OKR

发展农村数字普惠金融的问题及对策分析

CECBC

日志收集组件—Flume、Logstash、Filebeat对比

数据社

大数据 5月日更

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章