开云体育而且可以有用地膨大到普及 200 万高下文窗口-开云网页版网官方网站

发布日期：2026-03-17 13:39 点击次数：142

思挑战 Transformer 的新架构有好多开云体育，来自谷歌的"正宗"承袭者 Titan 架构更受关爱。

英伟达把测试时刻狡计（Test-time Computing）称为大模子的第三个 Scaling Law。

OpenAI 把它用在推理（Reasoning），谷歌此次把它用在了记挂（Memory）。

一作Ali Behrouz示意：

Titans 比 Transformers 和当代线性 RNN 更高效，而且可以有用地膨大到普及 200 万高下文窗口，性能比 GPT4、Llama3 等大模子更好。

他还解释了这篇征询的动机，团队以为 Transformer 中的重倡导机制发达为短期记挂，因此还需要一个能记着很久以前信息的神经记挂模块。

提到记挂，宇宙可能会思到 LSTM、Transformer 等经典模子，它们从不同角度模拟了东说念主脑记挂，但仍有局限性：

要么将数据压缩到固定大小的隐情状，容量有限

要么可以捕捉长程依赖，但狡计支拨随序列长度广泛级增长

而且，只是记着考核数据在现实使用时可能莫得匡助，因为测试数据可能在漫衍外。

为此，Titans 团队规画将往日信息编码到神经集中的参数中，考核了一个在线元模子（Online meta-model），该模子学习如安在测试时记着 / 健忘特定数据。

他们从神精热沈学中招揽灵感，设想了一个神经恒久记挂模块，它模仿了东说念主脑旨趣：

料思除外的事件（即"惊喜"）更容易被记着。‍

惊喜过程由记挂模块对输入的梯度来料到，梯度越大证据输入越出东说念主料思。

引入动量机制和渐忘机制，前者将短期内的惊喜积贮起来酿成恒久记挂，后者可以擦除不再需要的旧记挂，驻守记挂溢出。

记挂模块由多层 MLP 构成，可以存储深头绪的数据详细，比传统的矩阵记挂更宽绰。

这种在线元学习范式，幸免了模子记着毋庸的考核数据细节，而是学到了如何凭据新数据退换我方，具有更好的泛化智力。

另外，团队还考证了这个模块可以并行狡计。

如何将这个宽绰的记挂模块融入深度学习架构中呢？

为此，Titans 建议了三种变体：

MAC，记挂当作高下文

将恒久记挂和执久记挂（编码任务知识的不变参数）当作现时输入的高下文，一齐输入给 attention。

MAG，记挂当作门

在记挂模块和滑动窗口 attention 两个分支上进行门控会通。

MAL，记挂当作层

将记挂模块当作孤苦的一层，压缩历史信息后再输入给 attention。

在实验中，发现每种体式齐有我方的优过失。

Titans 在言语建模、学问推理、时刻序列瞻望等任务上全面寥落 Transformer 和 Mamba 等各路架构的 SOTA 模子。

而且仅靠恒久记挂模块（LMM，Long-term Memory Module）本人，就在多个任务上打败基线。

涌现了即使莫得短期记挂（也即是 Attention），该机制也具备孤苦学习的智力。

在长文本中寻找细粒度踪迹的"大海捞针"测试中，序列长度从 2k 加多到 16k，准确率保执在 90% 控制。

但团队以为，这些通用的测试也曾体现不出 Titans 在长文本上的上风。

在另一项需要对漫衍在极长文档中的事实作念推理的任务中，Titans 发达普及了 GPT4 、Mamba 等，以及 Llama3.1 + RAG 的系统。

另外皮时刻序列瞻望、DNA 序列建模等特定任务中，Titans 也赢得可以的发达。

三位作家来自 Google Research NYC 算法和优化团队，现在还没被团结到 Google DeepMind。

一作是 Ali Behrouz 来自康奈尔大学的实习生。

钟沛林是清华姚班学友，博士毕业于哥伦比亚大学，2021 年起加入谷歌任征询科学家。

2016 年，钟沛林本科工夫的一作论文被顶会 STOC 2016 接管，是初度有中邦本科生在 STOC 上发表一作论文。

领队的 Vahab Mirrokni 是 Google Fellow 以及 VP。

团队示意 Titians 是用 Pytorch 和 Jax 中罢了的，规画很快提供用于考核和评估模子的代码。

论文地址：

https://arxiv.org/abs/2501.00663v1

参考理解：

[ 1 ] https://x.com/behrouz_ali/status/1878859086227255347开云体育

友情链接：

开云体育而且可以有用地膨大到普及 200 万高下文窗口-开云网页版网官方网站

栏目分类

热点资讯

相关资讯

开云体育而且可以有用地膨大到普及 200 万高下文窗口-开云网页版网 官方网站

栏目分类

热点资讯

相关资讯

开云体育而且可以有用地膨大到普及 200 万高下文窗口-开云网页版网官方网站