Workflow
测试时强化学习
icon
搜索文档
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
36氪· 2026-01-28 16:01
方法提出背景与核心理念 - 业界普遍采用“测试时搜索”方法,如进化搜索AlphaEvolve,但该方法无法让大语言模型(LLM)自身能力得到真正提升[1] - 斯坦福大学、英伟达等机构联合提出新方法:在测试时进行强化学习,让LLM在尝试解决特定测试问题的过程中持续训练自己,以应对科学发现这类超出训练数据的难题[2] - 该方法命名为“Test-Time Training to Discover”,其目标不是提升模型在各类问题上的平均表现,而是专注于为当前单一问题寻找一个最优解决方案[3] TTT-Discover方法的核心创新 - 方法核心是在测试阶段针对单个问题持续对LLM进行训练,通过训练步骤的推进,模型逐渐生成更优的解[6] - 未直接套用标准RL算法,因为标准RL优化期望奖励,而科学探索追求单一最高奖励[9] - 引入两个关键组件:一是熵目标函数,通过指数加权极端偏向高奖励样本;二是受PUCT启发的状态复用策略,确保搜索集中在最有前景的解决路径上[9] - 熵目标和PUCT复用策略的结合使TTT-Discover能够优先发现单一的最高奖励解决方案,而非多个方案的平均表现[10] 方法在数学领域的应用成果 - 在Erdős最小重叠问题上,之前人类最佳表现是0.380927,AI最佳表现是0.380924,而TTT-Discover刷新记录,取得了0.380876的成绩[11] - 使用gpt-oss-120b模型时,TTT-Discover在Erdős任务上的结果为0.380876,优于所有对比方法[12] 方法在GPU内核优化领域的应用成果 - 在GPUMODE竞赛的TriMul内核优化任务中,TTT-Discover在所有GPU类型上均达到当前最优水平[12] - 在A100 GPU上,TTT-Discover找到的最佳内核比人类专家提交的最优方案快50%[13] - 在所有GPU类型上,该方法相对于人类最佳结果实现了超过15%的性能提升[13] - 具体数据:在A100上,TTT-Discover的TriMul内核运行时间为2198.2微秒,远低于人类最佳成绩的4531.5微秒[14] 方法在算法竞赛领域的应用成果 - 在AtCoder的Geometry竞赛中,TTT-Discover得分为567,062,超越了第一名人类的566,997[16] - 在AtCoder的Scheduling竞赛中,TTT-Discover得分为848,414,228,超越了所有人类参赛者[16] 方法在生物学单细胞分析领域的应用成果 - 在单细胞分析的去噪任务中,TTT-Discover在PBMC数据集上取得了0.71的Score和0.15的MSE,在Tabula数据集上取得了0.73的Score和0.14的MSE,均优于其他对比方法[17] 方法的计算成本与未来方向 - 该方法计算成本低,使用OpenAI gpt-oss-120b模型并通过Thinking Machines的API Tinker,每个问题只需花费几百美元[3] - 该方法目前只能应用于具有连续奖励的问题,未来重要方向是针对具有稀疏奖励或二元奖励的问题进行扩展[17]
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
机器之心· 2026-01-28 12:59
文章核心观点 - 斯坦福大学、英伟达等机构联合提出了一种名为“测试时训练以探索”(TTT-Discover)的新方法,该方法通过在解决单个测试问题时对冻结的大语言模型进行强化学习,使其在测试过程中持续自我训练,从而发现科学问题的新最优解[4][6] - 该方法的核心创新在于将学习目标从优化平均奖励转变为寻找单一最高奖励,并结合了熵目标函数和PUCT启发的状态复用策略,以优先探索最有前景的解决方案,而非追求多个方案的平均表现[13][14][15][17] - 在数学、GPU内核工程、算法设计和生物学等四个领域的测试中,TTT-Discover方法均取得了突破性成果,超越了现有最佳人类方案和AI方案,展示了其在解决超出训练数据分布的复杂科学发现问题上的潜力[7][19][24] TTT-Discover方法创新 - 方法核心是在测试时针对单个问题环境执行强化学习,目标是产出该问题的一个优秀解决方案,而不是提升模型在所有问题上的平均表现[6] - 摒弃了标准RL算法(如PPO/GRPO),因其优化期望奖励(平均分)的策略容易止步于“安全但平庸”的区域,不利于寻找突破性的高奖励解[13] - 引入两个关键组件:1) 熵目标函数,通过指数加权极端偏向高奖励样本,并为每个初始状态自适应设置参数以稳定训练[14];2) 受PUCT启发的状态复用策略,使用子状态的最大回报(而非平均回报)来评估和选择初始状态,确保搜索集中在最有前景的路径上[15][16] - 该方法在测试时持续更新模型权重,随着训练步数增加,模型生成的解决方案奖励分布显著提升,最终超越以往最优结果[10] 结果评估(数学领域) - 在Erdős最小重叠问题上,TTT-Discover取得了0.380876的成绩,刷新了此前人类最佳(0.380927)和AI最佳(AlphaEvolve的0.380924)的记录[12][20] - 使用的基础模型为OpenAI gpt-oss-120b,计算成本较低,每个问题仅需花费几百美元[7] 结果评估(GPU内核工程领域) - 在GPUMode TriMul竞赛中,TTT-Discover开发出的A100 GPU内核比人类最佳方案快50%[7][22] - 具体数据:在A100上,TTT-Discover的最佳内核耗时为2198.2微秒,显著优于排名第一的人类方案(4531.5微秒)和最佳AI基线方案(Best-of-25600的9219.7微秒)[23] - 在所有测试的GPU类型(包括H100、B200、AMD MI300X)上,该方法相比人类最佳结果均实现了超过15%的性能提升[22] 结果评估(算法设计领域) - 在AtCoder的Heuristic Contest 39(几何问题)中,TTT-Discover得分为567,062,超越了最佳人类得分(566,997)和最佳AI得分(ShinkaEvolve的558,026)[12][25] - 在AtCoder的Scheduling问题(ahc058)中,TTT-Discover得分为848,414,228,超越了最佳人类得分(847,674,723)[25] 结果评估(生物学领域) - 在单细胞RNA测序数据去噪任务中,TTT-Discover在PBMC和Tabula数据集上均取得了最佳成绩,得分分别为0.71和0.73,优于此前的最佳人类方法(MAGIC的0.64)和最佳AI基线(Best-of-25600)[12][26] 方法局限与未来方向 - 该方法目前仅适用于具有连续奖励的问题,未来重要的研究方向是将其应用于具有稀疏奖励或二元奖励的问题,例如数学证明、科学假说或物理、生物推理等不可验证领域[26]
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
36氪· 2026-01-27 17:17
研究核心观点 - 斯坦福、英伟达等机构的研究者提出了一种名为“测试时训练以发现”的新方法,该方法在测试阶段针对单个具体问题,通过强化学习实时更新模型权重,使模型能从失败尝试中学习并定向进化,从而在多个科学发现领域达到或超越最先进水平 [1][2] 方法原理与创新 - 该方法摒弃了传统的“测试时缩放”或仅通过提示调度冻结模型的做法,核心是在测试时进行强化学习 [2][3] - 其学习目标采用熵目标函数,旨在产生一个极优解,而非优化所有任务的平均奖励 [3] - 搜索过程引入了受PUCT启发的重用机制,在缓冲区维护历史尝试,优先扩展最具潜力的状态,以平衡探索与利用 [4][7] - 模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,形成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境 [5] 性能表现 - 该方法基于开源模型gpt-oss-120b,在多个领域达到SOTA [2] - 在数学的Erdős最小重叠问题上,将下界从0.380927优化至0.380876 [2] - 在内核工程任务中,在GPUMode上比顶级人类工程师快2倍,具体在A100上达到2198.190皮秒,优于人类的4531.516微秒 [2][9] - 在算法竞赛中,在历届AtCoder比赛题目上取得最高分567,062分,优于此前最佳AI的558,026分和最佳人类的566,997分 [2] - 在生物学的单细胞RNA-seq去噪任务上,性能达到0.71,优于人类专家的0.64 [2] 实现细节与成本 - 在具体算法中,搜索和学习过程均利用策略生成动作,并由问题描述诱导出环境转移函数 [5] - 训练循环包括从缓冲区挑选最具潜力的起点、生成新尝试、评分、更新模型权重,并重复此过程 [8] - 研究基于Tinker API运行,单个问题的测试成本约为数百美元 [9] 适用性与前景 - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学问题上展现出卓越能力 [10] - 目前该方法主要适用于连续奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题 [10] 研究背景与作者 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja [11][13] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练 [14][16]
斯坦福英伟达推出测试时强化学习:微调开源模型胜过顶级闭源模型,仅需几百美元
量子位· 2026-01-27 10:33
研究核心观点 - 提出一种名为“测试时训练以发现”的全新方法,旨在解决开放科学问题,该方法在测试阶段针对单个具体问题,引入强化学习对模型权重进行实时更新,使模型能从失败尝试中获取经验并实现定向进化[1][5][6] - 该方法基于开源模型gpt-oss-120b,在数学、内核工程、算法和生物学等多个领域达到或超越了当前最佳水平,性能优于人类专家与前沿闭源模型[3][8] - 核心思路是“在测试时进行强化学习”,其设计目标是针对特定科学发现任务,找到一个超越已有知识的最佳方案,而非在已知数据分布中实现泛化[9][12] 方法原理与创新 - **学习目标创新**:采用熵目标函数,其核心目标是产生一个极优解,通过调整权重倾向于奖励最高的单个动作,而非优化整条轨迹的平均奖励[9][10][11] - **搜索程序创新**:引入受PUCT启发的重用机制,在缓冲区中维护历史尝试,优先扩展最具潜力的状态,同时兼顾探索,以解决有效时界过短的问题[12][20][22] - **解决数据困境**:模型通过自身生成动作并接收反馈,将大量尝试存入缓冲区,构成针对特定问题的“私有数据集”,从而解决了分布外问题无数据可练的困境[13][14] 技术实现细节 - **算法循环**:在每一步训练中循环执行“挑选-生成-评分-更新”操作,从缓冲区选出最具潜力的起点,生成新尝试并评估,随后立即根据结果更新模型权重[17][18][27] - **状态选择机制**:采用受PUCT启发的评分函数,其中Q值采用子节点的最大奖励,而非平均值,关注“从该状态出发能走到多好”,先验项则编码了高奖励状态可能孕育高奖励后继状态的直觉[24][25][26] - **训练目标公式**:引入熵目标函数与KL惩罚项,显式引导模型偏好奖励最大的动作,同时在强化高优势动作时维持必要的探索能力[22][23] 实验性能表现 - **数学领域**:在Erdős最小重叠问题上,将下界从人类最佳的0.380927和先前最佳AI的0.380924,提升至0.380876[7][8] - **内核工程**:在GPU内核编写任务中,速度比当前最佳人类实现快约2倍[7][27] - **算法领域**:在历届AtCoder比赛题目上取得最高分567,062分,超越了人类最佳成绩566,997分和先前最佳AI的558,026分[7][8] - **生物领域**:在单细胞RNA-seq去噪任务上达到0.71的评分,优于人类专家的0.64[7][8] 应用与成本 - 基于开源模型gpt-oss-120b,通过Tinker API运行,解决单个问题的测试成本约为数百美元[27] - 该方法表明,在测试阶段引入针对性学习,能使中等规模开源模型在解决复杂的分布外科学生问题时展现出卓越能力[29] - 目前主要适用于连续可验证奖励场景,后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题[29] 研究团队背景 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul,共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja[30][31][33] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员,其研究方向为持续学习,自2019年起持续关注测试时训练[34][37]