比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题

文章核心观点 - 斯坦福大学、英伟达等机构联合提出了一种名为“测试时训练以探索”(TTT-Discover)的新方法,该方法通过在解决单个测试问题时对冻结的大语言模型进行强化学习,使其在测试过程中持续自我训练,从而发现科学问题的新最优解[4][6] - 该方法的核心创新在于将学习目标从优化平均奖励转变为寻找单一最高奖励,并结合了熵目标函数和PUCT启发的状态复用策略,以优先探索最有前景的解决方案,而非追求多个方案的平均表现[13][14][15][17] - 在数学、GPU内核工程、算法设计和生物学等四个领域的测试中,TTT-Discover方法均取得了突破性成果,超越了现有最佳人类方案和AI方案,展示了其在解决超出训练数据分布的复杂科学发现问题上的潜力[7][19][24] TTT-Discover方法创新 - 方法核心是在测试时针对单个问题环境执行强化学习,目标是产出该问题的一个优秀解决方案,而不是提升模型在所有问题上的平均表现[6] - 摒弃了标准RL算法(如PPO/GRPO),因其优化期望奖励(平均分)的策略容易止步于“安全但平庸”的区域,不利于寻找突破性的高奖励解[13] - 引入两个关键组件:1) 熵目标函数,通过指数加权极端偏向高奖励样本,并为每个初始状态自适应设置参数以稳定训练[14];2) 受PUCT启发的状态复用策略,使用子状态的最大回报(而非平均回报)来评估和选择初始状态,确保搜索集中在最有前景的路径上[15][16] - 该方法在测试时持续更新模型权重,随着训练步数增加,模型生成的解决方案奖励分布显著提升,最终超越以往最优结果[10] 结果评估(数学领域) - 在Erdős最小重叠问题上,TTT-Discover取得了0.380876的成绩,刷新了此前人类最佳(0.380927)和AI最佳(AlphaEvolve的0.380924)的记录[12][20] - 使用的基础模型为OpenAI gpt-oss-120b,计算成本较低,每个问题仅需花费几百美元[7] 结果评估(GPU内核工程领域) - 在GPUMode TriMul竞赛中,TTT-Discover开发出的A100 GPU内核比人类最佳方案快50%[7][22] - 具体数据:在A100上,TTT-Discover的最佳内核耗时为2198.2微秒,显著优于排名第一的人类方案(4531.5微秒)和最佳AI基线方案(Best-of-25600的9219.7微秒)[23] - 在所有测试的GPU类型(包括H100、B200、AMD MI300X)上,该方法相比人类最佳结果均实现了超过15%的性能提升[22] 结果评估(算法设计领域) - 在AtCoder的Heuristic Contest 39(几何问题)中,TTT-Discover得分为567,062,超越了最佳人类得分(566,997)和最佳AI得分(ShinkaEvolve的558,026)[12][25] - 在AtCoder的Scheduling问题(ahc058)中,TTT-Discover得分为848,414,228,超越了最佳人类得分(847,674,723)[25] 结果评估(生物学领域) - 在单细胞RNA测序数据去噪任务中,TTT-Discover在PBMC和Tabula数据集上均取得了最佳成绩,得分分别为0.71和0.73,优于此前的最佳人类方法(MAGIC的0.64)和最佳AI基线(Best-of-25600)[12][26] 方法局限与未来方向 - 该方法目前仅适用于具有连续奖励的问题,未来重要的研究方向是将其应用于具有稀疏奖励或二元奖励的问题,例如数学证明、科学假说或物理、生物推理等不可验证领域[26]

比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题 - Reportify