谷歌发布突破性大模型新架构 - 谷歌在NeurIPS 2025上发布两项关于大模型新架构的研究,旨在突破Transformer在处理超长上下文时的根本局限 [1][2] - 新架构通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token [2] - 谷歌近期在从产品到基础研究方面展现出穷追猛打的竞争态势 [5] Transformer架构的固有局限 - Transformer的自注意力机制导致计算量和内存消耗与序列长度的平方成正比(O(N²)),这是处理超长上下文时的主要瓶颈 [4][7] - 学界已探索线性循环网络和状态空间模型等替代方案,通过将上下文压缩到固定大小实现线性扩展,但难以充分捕捉超长序列中的丰富信息 [9][10] Titans架构:结合RNN速度与Transformer性能 - Titans是谷歌提出的新架构,其目标是结合RNN的速度和Transformer的性能 [8][11] - 该架构的核心是“测试时记忆”,模型在推理过程中无需离线重新训练,即可通过整合新信息来维持长期记忆 [12] - Titans引入了一种新的“神经长期记忆模块”,该模块本质上是一个在推理阶段仍能动态更新权重的多层感知机 [14][15] - 其关键设计是能够主动学习识别并保留输入数据中连接各个token的重要关系和概念,更新机制基于“惊喜指标”,即模型检测到记忆内容与新输入内容之间的差异 [18][19][20] - 低意外度的输入仅作为短期记忆处理,高意外度的输入则被优先存储到长期记忆模块中 [21] MAC:Titans的主要变体 - MAC是Titans架构的一种主要变体,其设计思路是将长期记忆作为额外的上下文信息直接输入给注意力机制 [16] - MAC不改变注意力计算方式,而是改变了注意力的输入来源,将长期记忆的“摘要”与当前短期输入一起处理 [16] - 实验表明,Titans (MAC)变体在多项长上下文测试中表现优异,例如在S-NIAH-W任务16K长度下准确率达到95.2%,显著优于Mamba 2(0.0%)和DeltaNet(0.0%)等模型 [30] MIRAS:序列建模的统一理论框架 - MIRAS是支持Titans背后的核心理论框架,其核心目标是让模型在推理阶段也能进行学习 [8][22] - MIRAS将任意序列模型解构为四个关键设计选择:内存架构、注意力偏差、保留门控(遗忘机制)和记忆算法 [23][28] - 该框架的创新在于引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制来更新记忆 [26] - 基于MIRAS,研究人员创建了三个特定的无注意力模型:YAAD、MONETA和MEMORA,分别采用不同的损失函数和规则来提升鲁棒性、稳定性和可控性 [27][29] 性能表现与行业影响 - 基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2)以及规模相近的Transformer基线模型 [27] - 新架构能够在参数规模小得多的情况下,处理极长上下文,并且性能优于GPT-4等大规模模型 [32] - 谷歌方面表示,尽管面临竞争,但不后悔公开Transformer研究,认为其对世界产生了巨大的积极影响 [34]
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?