QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

  • 2024-07-12
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。



这个模型通过对输入 token 进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。该研究作者之一 Karan Dalal 表示,他相信这将根本性地改变语言模型方法。


自注意力机制在处理长上下文时表现良好,但其复杂度是二次的。现有的 RNN 层具有线性复杂度,但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加,成本也会越来越高。


作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型,并将更新规则设为自监督学习的一步。



论文中提出了两种实例:TTT-Linear 和 TTT-MLP,它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例,并与强大的 Transformer 和现代 RNN Mamba 进行了比较。结果显示,与 Mamba 相比,TTT-Linear 的困惑度更低,FLOP 更少(左),对长上下文的利用更好(右):



这个结果代表了现有 RNN 的尴尬现实。一方面,RNN(与 Transformer 相比)的主要优点是其线性(与二次型)复杂性。这种渐近优势只有在长上下文的实践中才能实现,根据下图,这个长度是 8k。另一方面,一旦上下文足够长,现有的 RNN(如 Mamba)就很难真正利用所依赖的额外信息。



并且,大量的实验结果表明:TTT-Linear 和 TTT-MLP 都匹配或超过基线。与 Transformer 类似,它们可以通过限制更多的代币来不断减少困惑,而 Mamba 在 16k 上下文后则不能。经过初步的系统优化,TTT Linear 在 8k 环境下已经比 Transformer 更快,并且在 wall-clock 时间上与 Mamba 相匹配。


TTT 层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对 TTT 层的接受度也将逐步提升。


论文链接:https://arxiv.org/pdf/2407.04620v1


2024-07-12 09:189009

评论

发布
暂无评论
发现更多内容

揭秘高效人事财务对接新方案!

聚道云软件连接器

案例分享

Python官方发布的《Python标准库参考》,共2018页,建议收藏!

我再BUG界嘎嘎乱杀

Python 后端 入门 开发语言 零基础

推进现代化的财务计划,打造可持续的企业发展

智达方通

全面预算管理 财务管理

2024年开发体育直播平台:最具潜力的创业项目

软件开发-梦幻运营部

从 Docker Hub 拉取镜像受阻?这些解决方案帮你轻松应对

北京好雨科技有限公司

docker image rainbond 企业号 6 月 PK 榜

鸿蒙开发之音频播放开发技术文档

彭康佳

鸿蒙 音视频

Anthropic 发布 Claude 3.5 Sonnet;欧洲杯首次引入虚拟实时广告丨 RTE 开发者日报 Vol.229

声网

如何使用 NFTScan NFT API 在 Sei 网络上开发 Web3 应用

NFT Research

NFT\ NFTScan API 类型

闲鱼面试:说说JWT工作原理?

王磊

AD域控同步新突破:一键解决企业身份管理难题!

聚道云软件连接器

案例分享

使用NJet作为K8s的Ingress Controller -高性能、可动态配置

通明湖

「白帽黑客」还是「敲诈勒索」:Kraken 与 CertiK 对峙上了

TechubNews

web3、

浅析Vite本地构建原理

不在线第一只蜗牛

vite 本地

调用了这么久的JS方法是长在对象、类、值本身还是原型链上?

EquatorCoco

JavaScript js

淘宝API接口在电商商品数据实时采集与分析中的实践

技术冰糖葫芦

API Explorer API 类型 API 管理 pinduoduo API

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT_AI&大模型_赵明华_InfoQ精选文章