测试时训练 - 财报，业绩电话会，研报，新闻

测试时训练

搜索文档

36氪· 2026-01-14 16:22

英伟达推出TTT-E2E方法 - 英伟达联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法，旨在提高大模型记忆能力 [1] - 该方法在128K超长文本上处理速度比全注意力模型快2.7倍，处理2M上下文时提速达35倍，且性能不打折 [1] 技术原理与核心思路 - TTT-E2E采用动态学习路径，核心在于上下文压缩，通过实时学习将关键内容压缩到自身权重中，让模型在测试阶段保持学习状态 [3] - 该方法基于带滑动窗口注意力的标准Transformer，未依赖复杂特殊架构，易于部署 [6] - 核心思路是将长文本建模从架构设计问题转化为「持续学习」任务，在测试阶段通过梯度下降更新自身参数，动态压缩文本信息到权重中 [6] - 在训练阶段，通过元学习为模型做初始化准备，让模型适应「测试时学习」模式，实现了训练与测试的端到端对齐优化 [6] 关键优化设计 - 采用「迷你批处理+滑动窗口」组合策略，将测试时训练数据分多个迷你批，配合8K大小滑动窗口注意力，解决单token梯度更新易爆炸问题并提升计算并行度 [8] - 采用精准更新策略，只更新模型的MLP层（冻结嵌入层、归一化层和注意力层），并且只更新最后1/4的网络块，以减少计算成本并避免参数更新混乱 [8] - 采用双MLP设计，在需更新的网络块中加入一个静态MLP层存储预训练知识，另一个动态MLP层负责吸收新上下文，防止模型学新忘旧 [9] 性能表现与优势 - 在3B参数模型的测试中，TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优，而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能出现明显下滑 [9] - 其推理延迟不随上下文长度增加而变化，在H100显卡上处理128K文本时，速度比全注意力模型快2.7倍 [9] - 在解码长序列任务中，经Qwen-8B模型评估，TTT-E2E生成的文本质量稳定，损失值持续低于传统模型 [11] - 该方法的推理延迟与上下文长度无关，始终保持恒定，意味着无论处理8K还是128K文本，用户都能获得一致的快速响应体验 [13] 技术局限性与开源情况 - 在需要精准回忆细节的任务（如大海捞针）中，其表现远不如全注意力模型，因其核心是压缩记忆，会过滤掉看似无关的细节 [13] - 训练阶段的元学习需要计算梯度的梯度，目前实现比标准预训练要慢 [13] - TTT-E2E的代码和相关论文已完全开源，项目总负责人是斯坦福的博士后研究员Yu Sun [13][15]

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

量子位· 2026-01-14 12:42

文章核心观点 - 英伟达联合多家研究机构推出名为TTT-E2E的新方法，旨在通过“测试时训练”和“上下文压缩”技术，动态地将长文本关键信息压缩到模型权重中，从而显著提升大模型处理长文本的效率与性能，同时保持模型轻量化和易于部署 [1][2][6][7][12] 技术原理与创新 - 核心思路是将长文本建模从架构设计问题转化为“持续学习”任务，模型在测试阶段基于当前上下文进行下一个词预测，并通过梯度下降实时更新自身参数，将文本信息动态压缩到权重中，无需额外存储 [12][13] - 该方法基于带滑动窗口注意力的标准Transformer架构，并未依赖复杂特殊设计，因此易于部署 [11] - 在训练阶段采用元学习方法为模型初始化，通过内循环模拟测试时训练、外循环优化初始参数，实现训练与测试的端到端对齐优化 [14] 性能表现与优势 - 在128K超长文本上，处理速度比全注意力模型快2.7倍，处理2M上下文时提速达35倍，且性能不打折 [3] - 在3B参数模型的测试中，TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优，而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能出现明显下滑 [19] - 推理延迟不随上下文长度增加而变化，在H100显卡上处理128K文本时，速度比全注意力模型快2.7倍，无论处理8K还是128K文本，用户都能获得一致的快速响应体验 [19][23] - 在解码长序列任务中，经Qwen-8B模型评估，TTT-E2E生成的文本质量稳定，损失值持续低于传统模型 [21] 关键技术优化 - 采用“迷你批处理+滑动窗口”组合策略，将测试时训练数据分多个迷你批，配合8K大小的滑动窗口注意力，解决单token梯度更新易爆炸问题，提升计算并行度 [17] - 实施精准更新策略，只更新模型的MLP层（冻结嵌入层、归一化层和注意力层），并且只更新最后1/4的网络块，以减少计算成本并避免参数更新混乱 [17] - 采用双MLP设计，在需更新的网络块中加入一个静态MLP层存储预训练知识，另一个动态MLP层负责吸收新上下文，防止模型学新忘旧 [17] 技术局限 - 在“大海捞针”这类需要精准回忆细节的任务中，表现远不如全注意力模型，因为其核心是压缩记忆，会过滤掉看似无关的细节 [25][26] - 训练阶段的元学习需要计算梯度的梯度，目前实现比标准预训练要慢 [27] 项目背景与现状 - 项目总负责人是斯坦福博士后研究员Yu Sun，其自2019年以来就在开发“测试时训练”概念框架，TTT-E2E项目的早期构想由他提出 [29][30] - 目前，TTT-E2E的代码和相关论文已完全开源 [28]