测试时强化学习 - 财报，业绩电话会，研报，新闻

测试时强化学习

搜索文档

36氪· 2026-01-27 17:17

研究核心观点 - 斯坦福、英伟达等机构的研究者提出了一种名为“测试时训练以发现”的新方法，该方法在测试阶段针对单个具体问题，通过强化学习实时更新模型权重，使模型能从失败尝试中学习并定向进化，从而在多个科学发现领域达到或超越最先进水平 [1][2] 方法原理与创新 - 该方法摒弃了传统的“测试时缩放”或仅通过提示调度冻结模型的做法，核心是在测试时进行强化学习 [2][3] - 其学习目标采用熵目标函数，旨在产生一个极优解，而非优化所有任务的平均奖励 [3] - 搜索过程引入了受PUCT启发的重用机制，在缓冲区维护历史尝试，优先扩展最具潜力的状态，以平衡探索与利用 [4][7] - 模型通过自身生成动作并接收反馈，将大量尝试存入缓冲区，形成针对特定问题的“私有数据集”，从而解决了分布外问题无数据可练的困境 [5] 性能表现 - 该方法基于开源模型gpt-oss-120b，在多个领域达到SOTA [2] - 在数学的Erdős最小重叠问题上，将下界从0.380927优化至0.380876 [2] - 在内核工程任务中，在GPUMode上比顶级人类工程师快2倍，具体在A100上达到2198.190皮秒，优于人类的4531.516微秒 [2][9] - 在算法竞赛中，在历届AtCoder比赛题目上取得最高分567,062分，优于此前最佳AI的558,026分和最佳人类的566,997分 [2] - 在生物学的单细胞RNA-seq去噪任务上，性能达到0.71，优于人类专家的0.64 [2] 实现细节与成本 - 在具体算法中，搜索和学习过程均利用策略生成动作，并由问题描述诱导出环境转移函数 [5] - 训练循环包括从缓冲区挑选最具潜力的起点、生成新尝试、评分、更新模型权重，并重复此过程 [8] - 研究基于Tinker API运行，单个问题的测试成本约为数百美元 [9] 适用性与前景 - 该方法表明，在测试阶段引入针对性学习，能使中等规模开源模型在解决复杂的分布外科学问题上展现出卓越能力 [10] - 目前该方法主要适用于连续奖励场景，后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题 [10] 研究背景与作者 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul，共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja [11][13] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员，其研究方向为持续学习，自2019年起持续关注测试时训练 [14][16]

斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

量子位· 2026-01-27 10:33

研究核心观点 - 提出一种名为“测试时训练以发现”的全新方法，旨在解决开放科学问题，该方法在测试阶段针对单个具体问题，引入强化学习对模型权重进行实时更新，使模型能从失败尝试中获取经验并实现定向进化[1][5][6] - 该方法基于开源模型gpt-oss-120b，在数学、内核工程、算法和生物学等多个领域达到或超越了当前最佳水平，性能优于人类专家与前沿闭源模型[3][8] - 核心思路是“在测试时进行强化学习”，其设计目标是针对特定科学发现任务，找到一个超越已有知识的最佳方案，而非在已知数据分布中实现泛化[9][12] 方法原理与创新 - **学习目标创新**：采用熵目标函数，其核心目标是产生一个极优解，通过调整权重倾向于奖励最高的单个动作，而非优化整条轨迹的平均奖励[9][10][11] - **搜索程序创新**：引入受PUCT启发的重用机制，在缓冲区中维护历史尝试，优先扩展最具潜力的状态，同时兼顾探索，以解决有效时界过短的问题[12][20][22] - **解决数据困境**：模型通过自身生成动作并接收反馈，将大量尝试存入缓冲区，构成针对特定问题的“私有数据集”，从而解决了分布外问题无数据可练的困境[13][14] 技术实现细节 - **算法循环**：在每一步训练中循环执行“挑选-生成-评分-更新”操作，从缓冲区选出最具潜力的起点，生成新尝试并评估，随后立即根据结果更新模型权重[17][18][27] - **状态选择机制**：采用受PUCT启发的评分函数，其中Q值采用子节点的最大奖励，而非平均值，关注“从该状态出发能走到多好”，先验项则编码了高奖励状态可能孕育高奖励后继状态的直觉[24][25][26] - **训练目标公式**：引入熵目标函数与KL惩罚项，显式引导模型偏好奖励最大的动作，同时在强化高优势动作时维持必要的探索能力[22][23] 实验性能表现 - **数学领域**：在Erdős最小重叠问题上，将下界从人类最佳的0.380927和先前最佳AI的0.380924，提升至0.380876[7][8] - **内核工程**：在GPU内核编写任务中，速度比当前最佳人类实现快约2倍[7][27] - **算法领域**：在历届AtCoder比赛题目上取得最高分567,062分，超越了人类最佳成绩566,997分和先前最佳AI的558,026分[7][8] - **生物领域**：在单细胞RNA-seq去噪任务上达到0.71的评分，优于人类专家的0.64[7][8] 应用与成本 - 基于开源模型gpt-oss-120b，通过Tinker API运行，解决单个问题的测试成本约为数百美元[27] - 该方法表明，在测试阶段引入针对性学习，能使中等规模开源模型在解决复杂的分布外科学生问题时展现出卓越能力[29] - 目前主要适用于连续可验证奖励场景，后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题[29] 研究团队背景 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul，共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja[30][31][33] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员，其研究方向为持续学习，自2019年起持续关注测试时训练[34][37]