发布日期:2026-03-17 13:39 点击次数:136
思挑战 Transformer 的新架构有好多开云体育,来自谷歌的"正宗"承袭者 Titan 架构更受关爱。

英伟达把测试时刻狡计(Test-time Computing)称为大模子的第三个 Scaling Law。
OpenAI 把它用在推理(Reasoning),谷歌此次把它用在了记挂(Memory)。
一作Ali Behrouz示意:
Titans 比 Transformers 和当代线性 RNN 更高效,而且可以有用地膨大到普及 200 万高下文窗口,性能比 GPT4、Llama3 等大模子更好。
他还解释了这篇征询的动机,团队以为 Transformer 中的重倡导机制发达为短期记挂,因此还需要一个能记着很久以前信息的神经记挂模块。

提到记挂,宇宙可能会思到 LSTM、Transformer 等经典模子,它们从不同角度模拟了东说念主脑记挂,但仍有局限性:
要么将数据压缩到固定大小的隐情状,容量有限
要么可以捕捉长程依赖,但狡计支拨随序列长度广泛级增长
而且,只是记着考核数据在现实使用时可能莫得匡助,因为测试数据可能在漫衍外。
为此,Titans 团队规画将往日信息编码到神经集中的参数中,考核了一个在线元模子(Online meta-model),该模子学习如安在测试时记着 / 健忘特定数据。
他们从神精热沈学中招揽灵感,设想了一个神经恒久记挂模块,它模仿了东说念主脑旨趣:
料思除外的事件(即"惊喜")更容易被记着。
惊喜过程由记挂模块对输入的梯度来料到,梯度越大证据输入越出东说念主料思。
引入动量机制和渐忘机制,前者将短期内的惊喜积贮起来酿成恒久记挂,后者可以擦除不再需要的旧记挂,驻守记挂溢出。
记挂模块由多层 MLP 构成,可以存储深头绪的数据详细,比传统的矩阵记挂更宽绰。

这种在线元学习范式,幸免了模子记着毋庸的考核数据细节,而是学到了如何凭据新数据退换我方,具有更好的泛化智力。
另外,团队还考证了这个模块可以并行狡计。

如何将这个宽绰的记挂模块融入深度学习架构中呢?
为此,Titans 建议了三种变体:
MAC,记挂当作高下文
将恒久记挂和执久记挂(编码任务知识的不变参数)当作现时输入的高下文,一齐输入给 attention。

MAG,记挂当作门
在记挂模块和滑动窗口 attention 两个分支上进行门控会通。

MAL,记挂当作层
将记挂模块当作孤苦的一层,压缩历史信息后再输入给 attention。

在实验中,发现每种体式齐有我方的优过失。
Titans 在言语建模、学问推理、时刻序列瞻望等任务上全面寥落 Transformer 和 Mamba 等各路架构的 SOTA 模子。
而且仅靠恒久记挂模块(LMM,Long-term Memory Module)本人,就在多个任务上打败基线。
涌现了即使莫得短期记挂(也即是 Attention),该机制也具备孤苦学习的智力。

在长文本中寻找细粒度踪迹的"大海捞针"测试中,序列长度从 2k 加多到 16k,准确率保执在 90% 控制。

但团队以为,这些通用的测试也曾体现不出 Titans 在长文本上的上风。
在另一项需要对漫衍在极长文档中的事实作念推理的任务中,Titans 发达普及了 GPT4 、Mamba 等,以及 Llama3.1 + RAG 的系统。

另外皮时刻序列瞻望、DNA 序列建模等特定任务中,Titans 也赢得可以的发达。
三位作家来自 Google Research NYC 算法和优化团队,现在还没被团结到 Google DeepMind。
一作是 Ali Behrouz 来自康奈尔大学的实习生。

钟沛林是清华姚班学友,博士毕业于哥伦比亚大学,2021 年起加入谷歌任征询科学家。
2016 年,钟沛林本科工夫的一作论文被顶会 STOC 2016 接管,是初度有中邦本科生在 STOC 上发表一作论文。

领队的 Vahab Mirrokni 是 Google Fellow 以及 VP。

团队示意 Titians 是用 Pytorch 和 Jax 中罢了的,规画很快提供用于考核和评估模子的代码。
论文地址:
https://arxiv.org/abs/2501.00663v1
参考理解:
[ 1 ] https://x.com/behrouz_ali/status/1878859086227255347开云体育
Powered by 开云网页版网 官方网站 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群 © 2013-2024