测试时训练
搜索文档
首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈
机器之心· 2026-02-10 16:52
行业技术范式演进 - 当前大模型行业共识正从单纯扩大预训练参数,转向挖掘“测试时扩展”的潜力,利用测试时的算力进行有效训练成为焦点[1][5] - DeepSeek-R1等模型的成功证明了强化学习在推理任务上的威力,但现有强化学习范式通常依赖大量高质量标注,限制了扩展性[7] - 为摆脱对标签的依赖,“测试时训练”应运而生,其核心是在测试阶段利用模型生成的伪标签进行即时更新[7] 现有技术瓶颈与创新动机 - 面对高难度推理任务时,现有测试时训练方法因伪标签噪声过大而陷入“瞎猜”困境,存在“能力错配”悖论[2][8] - 两大核心挑战:1) 伪标签不可靠,基于错误共识训练会导致模型“越学越偏”;2) 缺乏中间难度阶梯,模型无法跨越巨大的难度鸿沟[13] - 创新动机源于思考:模型能否像人类自学者一样,通过自己给自己出题,将难题拆解为一组可解决的练习题,实现螺旋上升[8] TTCS框架核心方法论 - TTCS是一个基于共进化的测试时课程合成框架,不依赖任何外部人工标注[2][10] - 框架构建了一个包含两个共享初始权重Agent的闭环生态系统:Synthesizer(合成器/出题老师)和Solver(求解器/学生)[11][12][14] - 核心机制是通过精密的能力自适应奖励机制寻找模型的“能力边界”,奖励函数设计为迫使Synthesizer生成模型“似懂非懂”的题目[16][19] - 形成闭环效应:Solver能力提升后,其能力边界移动,Synthesizer随之生成更难题目,二者相互追赶,实现动态课程学习[16] 实验性能表现 - 在Qwen2.5-Math-1.5B模型上,TTCS将数学推理平均分从17.30提升至41.49,暴涨24.19分[3][20] - 在Qwen2.5-Math-7B模型上,TTCS平均分达到52.54,相比广泛使用的Self-Consistency方法的32.15分提升20.39分[20] - 在极具挑战的AIME竞赛题上表现突出:在1.5B模型上,AIME 2024得分从TTRL的13.23分跃升至19.79分,提升6.56分;在7B模型上,AIME 2025得分达到19.90分,显著优于TTRL的14.06分[21][23] 框架有效性深度分析 - 具备泛化性:在AIME上进行测试时训练的TTCS模型,在MMLU-Pro和SuperGPQA等通用领域推理任务上也实现了性能跃升,表明学到的是通用推理逻辑而非简单过拟合[22] - “动态老师”优于“静态名师”:共进化的1.5B Synthesizer带来的提升是静态14B Synthesizer的两倍,揭示了适应学生当前水平的老师比单纯水平高的老师更重要[25] - 数据效率惊人:即使只使用10%的测试数据,TTCS在AIME24上的准确率就能达到13.33,远超同等数据量下TTRL的表现[27] 行业意义与展望 - TTCS框架是对“测试时计算”范式的一次重构,证明了模型在测试时应是主动的课程设计者而非被动的解题者[30] - 该框架完美解决了测试时训练中“数据稀缺”和“难度断层”两大痛点[31] - 为提升大模型在复杂数学、代码推理任务上的表现提供了新思路,为未来自进化智能体奠定了坚实基础[31]
不用额外缓存,英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
36氪· 2026-01-14 16:22
英伟达推出TTT-E2E方法 - 英伟达联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法,旨在提高大模型记忆能力 [1] - 该方法在128K超长文本上处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,且性能不打折 [1] 技术原理与核心思路 - TTT-E2E采用动态学习路径,核心在于上下文压缩,通过实时学习将关键内容压缩到自身权重中,让模型在测试阶段保持学习状态 [3] - 该方法基于带滑动窗口注意力的标准Transformer,未依赖复杂特殊架构,易于部署 [6] - 核心思路是将长文本建模从架构设计问题转化为「持续学习」任务,在测试阶段通过梯度下降更新自身参数,动态压缩文本信息到权重中 [6] - 在训练阶段,通过元学习为模型做初始化准备,让模型适应「测试时学习」模式,实现了训练与测试的端到端对齐优化 [6] 关键优化设计 - 采用「迷你批处理+滑动窗口」组合策略,将测试时训练数据分多个迷你批,配合8K大小滑动窗口注意力,解决单token梯度更新易爆炸问题并提升计算并行度 [8] - 采用精准更新策略,只更新模型的MLP层(冻结嵌入层、归一化层和注意力层),并且只更新最后1/4的网络块,以减少计算成本并避免参数更新混乱 [8] - 采用双MLP设计,在需更新的网络块中加入一个静态MLP层存储预训练知识,另一个动态MLP层负责吸收新上下文,防止模型学新忘旧 [9] 性能表现与优势 - 在3B参数模型的测试中,TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优,而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能出现明显下滑 [9] - 其推理延迟不随上下文长度增加而变化,在H100显卡上处理128K文本时,速度比全注意力模型快2.7倍 [9] - 在解码长序列任务中,经Qwen-8B模型评估,TTT-E2E生成的文本质量稳定,损失值持续低于传统模型 [11] - 该方法的推理延迟与上下文长度无关,始终保持恒定,意味着无论处理8K还是128K文本,用户都能获得一致的快速响应体验 [13] 技术局限性与开源情况 - 在需要精准回忆细节的任务(如大海捞针)中,其表现远不如全注意力模型,因其核心是压缩记忆,会过滤掉看似无关的细节 [13] - 训练阶段的元学习需要计算梯度的梯度,目前实现比标准预训练要慢 [13] - TTT-E2E的代码和相关论文已完全开源,项目总负责人是斯坦福的博士后研究员Yu Sun [13][15]
不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
量子位· 2026-01-14 12:42
文章核心观点 - 英伟达联合多家研究机构推出名为TTT-E2E的新方法,旨在通过“测试时训练”和“上下文压缩”技术,动态地将长文本关键信息压缩到模型权重中,从而显著提升大模型处理长文本的效率与性能,同时保持模型轻量化和易于部署 [1][2][6][7][12] 技术原理与创新 - 核心思路是将长文本建模从架构设计问题转化为“持续学习”任务,模型在测试阶段基于当前上下文进行下一个词预测,并通过梯度下降实时更新自身参数,将文本信息动态压缩到权重中,无需额外存储 [12][13] - 该方法基于带滑动窗口注意力的标准Transformer架构,并未依赖复杂特殊设计,因此易于部署 [11] - 在训练阶段采用元学习方法为模型初始化,通过内循环模拟测试时训练、外循环优化初始参数,实现训练与测试的端到端对齐优化 [14] 性能表现与优势 - 在128K超长文本上,处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,且性能不打折 [3] - 在3B参数模型的测试中,TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优,而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能出现明显下滑 [19] - 推理延迟不随上下文长度增加而变化,在H100显卡上处理128K文本时,速度比全注意力模型快2.7倍,无论处理8K还是128K文本,用户都能获得一致的快速响应体验 [19][23] - 在解码长序列任务中,经Qwen-8B模型评估,TTT-E2E生成的文本质量稳定,损失值持续低于传统模型 [21] 关键技术优化 - 采用“迷你批处理+滑动窗口”组合策略,将测试时训练数据分多个迷你批,配合8K大小的滑动窗口注意力,解决单token梯度更新易爆炸问题,提升计算并行度 [17] - 实施精准更新策略,只更新模型的MLP层(冻结嵌入层、归一化层和注意力层),并且只更新最后1/4的网络块,以减少计算成本并避免参数更新混乱 [17] - 采用双MLP设计,在需更新的网络块中加入一个静态MLP层存储预训练知识,另一个动态MLP层负责吸收新上下文,防止模型学新忘旧 [17] 技术局限 - 在“大海捞针”这类需要精准回忆细节的任务中,表现远不如全注意力模型,因为其核心是压缩记忆,会过滤掉看似无关的细节 [25][26] - 训练阶段的元学习需要计算梯度的梯度,目前实现比标准预训练要慢 [27] 项目背景与现状 - 项目总负责人是斯坦福博士后研究员Yu Sun,其自2019年以来就在开发“测试时训练”概念框架,TTT-E2E项目的早期构想由他提出 [29][30] - 目前,TTT-E2E的代码和相关论文已完全开源 [28]