Nvidia-斯坦福英伟达推出测试时强化学习：微调开源模型胜过顶级闭源模型，仅需几百美元

研究核心观点 - 斯坦福、英伟达等机构的研究者提出了一种名为“测试时训练以发现”的新方法，该方法在测试阶段针对单个具体问题，通过强化学习实时更新模型权重，使模型能从失败尝试中学习并定向进化，从而在多个科学发现领域达到或超越最先进水平 [1][2] 方法原理与创新 - 该方法摒弃了传统的“测试时缩放”或仅通过提示调度冻结模型的做法，核心是在测试时进行强化学习 [2][3] - 其学习目标采用熵目标函数，旨在产生一个极优解，而非优化所有任务的平均奖励 [3] - 搜索过程引入了受PUCT启发的重用机制，在缓冲区维护历史尝试，优先扩展最具潜力的状态，以平衡探索与利用 [4][7] - 模型通过自身生成动作并接收反馈，将大量尝试存入缓冲区，形成针对特定问题的“私有数据集”，从而解决了分布外问题无数据可练的困境 [5] 性能表现 - 该方法基于开源模型gpt-oss-120b，在多个领域达到SOTA [2] - 在数学的Erdős最小重叠问题上，将下界从0.380927优化至0.380876 [2] - 在内核工程任务中，在GPUMode上比顶级人类工程师快2倍，具体在A100上达到2198.190皮秒，优于人类的4531.516微秒 [2][9] - 在算法竞赛中，在历届AtCoder比赛题目上取得最高分567,062分，优于此前最佳AI的558,026分和最佳人类的566,997分 [2] - 在生物学的单细胞RNA-seq去噪任务上，性能达到0.71，优于人类专家的0.64 [2] 实现细节与成本 - 在具体算法中，搜索和学习过程均利用策略生成动作，并由问题描述诱导出环境转移函数 [5] - 训练循环包括从缓冲区挑选最具潜力的起点、生成新尝试、评分、更新模型权重，并重复此过程 [8] - 研究基于Tinker API运行，单个问题的测试成本约为数百美元 [9] 适用性与前景 - 该方法表明，在测试阶段引入针对性学习，能使中等规模开源模型在解决复杂的分布外科学问题上展现出卓越能力 [10] - 目前该方法主要适用于连续奖励场景，后续工作需拓展至稀疏奖励、二元奖励及不可验证领域的问题 [10] 研究背景与作者 - 论文一作为斯坦福大学计算机科学系博士生Mert Yuksekgonul，共同一作为斯坦福人工智能实验室全职研究员Daniel Koceja [11][13] - 通讯作者Yu Sun为斯坦福大学博士后兼英伟达研究员，其研究方向为持续学习，自2019年起持续关注测试时训练 [14][16]