Nested Learning
搜索文档
谷歌刚掀了模型记忆的桌子,英伟达又革了注意力的命
36氪· 2026-01-20 09:12
文章核心观点 - 英伟达与斯坦福的研究人员提出了一种名为“端到端测试时训练”的新方法,旨在通过让大语言模型在推理过程中持续更新自身参数来学习并内化长上下文信息,从而替代或补充传统的基于注意力机制的KV缓存记忆方式 [1][4] - 该方法将记忆重新定义为一种持续的学习过程,其价值在于改变模型未来的预测,而非完整存储过去,为解决传统注意力机制因二次方成本而面临的可扩展性瓶颈提供了一种潜在的工程解决方案 [34] 技术演进与核心理念 - 测试时训练并非全新概念,其早期形式可追溯至2013年的动态评估,核心思想是在推理时通过下一词预测损失对模型参数进行小步梯度更新,使其适应当前文本的局部特征 [5] - 英伟达的TTT-E2E方法回归了最原初的动态评估理念,其测试时更新的唯一目标函数就是网络末端的下一词预测交叉熵损失,这使得模型的学习与最终任务完全对齐 [10] - 与谷歌Nested Learning等TTT-KVB路线不同,TTT-KVB侧重于教导模型如何构建内部记忆结构,而TTT-E2E则直接优化最终预测目标,实验表明后者能带来更低的语言建模损失 [10][16] 方法创新与工程实现 - 研究团队通过移除Transformer中的所有自注意力层,构建了一个仅含多层感知机的“玩具模型”,证明了仅靠测试时参数更新就能编码长上下文信息,其性能曲线几乎紧贴全注意力模型 [12][15] - 为了解决早期动态评估存在的训练-测试不匹配导致的参数漂移和灾难性遗忘问题,TTT-E2E引入了元学习框架,在训练阶段就模拟推理时的更新过程,让模型学会如何稳定、高效地更新自身参数 [20][21] - 在工程层面,该方法采用了多重安全阀以确保稳定性,包括结合滑动窗口注意力作为短期记忆、冻结大部分网络层、仅更新最后1/4的块,以及在可更新块中引入静态MLP来保护预训练知识 [24][25] 性能表现与优势 - 在语言建模损失方面,将760M参数模型的TTT-KVB方法改为使用下一词预测损失后,在8K上下文长度下的损失从2.818降至2.806,提升了0.012,这表明端到端优化能直接提升预测能力 [16][17] - 在长上下文扩展性上,当上下文长度增加到64K乃至128K时,TTT-E2E的损失曲线保持稳定,未出现优势稀释,而Mamba 2、Gated DeltaNet等其他线性时间模型以及TTT-KVB的损失则开始上升 [27] - 在推理延迟方面,TTT-E2E继承了参数学习方法的优势,其延迟不随上下文长度增长而显著增加,在H100上处理128K上下文的预填充阶段比全注意力模型快约2.7倍 [29] 局限性与适用场景 - TTT-E2E及其所在的线性模型路线在需要精确检索的“海底寻针”类测试中表现不佳,被全注意力模型碾压,这表明其记忆方式更偏向于压缩和概括,而非逐字存档 [31] - 该方法的训练成本较高,其训练延迟比标准Transformer高出50-100%,这在扩展到工业级的数万亿token训练时可能成为一个制约因素 [33] - 该方法更适合写作连贯性、长文理解、风格约束等任务,通过以学习压缩换取长上下文的可扩展性,使模型在超长上下文上既能高效运行,又能提升预测能力 [31][34]