Nvidia-比人类专家快2倍，斯坦福联合英伟达发布TTT-Discover：用「测试时强化学习」攻克科学难题

方法提出背景与核心理念 - 业界普遍采用“测试时搜索”方法，如进化搜索AlphaEvolve，但该方法无法让大语言模型（LLM）自身能力得到真正提升[1] - 斯坦福大学、英伟达等机构联合提出新方法：在测试时进行强化学习，让LLM在尝试解决特定测试问题的过程中持续训练自己，以应对科学发现这类超出训练数据的难题[2] - 该方法命名为“Test-Time Training to Discover”，其目标不是提升模型在各类问题上的平均表现，而是专注于为当前单一问题寻找一个最优解决方案[3] TTT-Discover方法的核心创新 - 方法核心是在测试阶段针对单个问题持续对LLM进行训练，通过训练步骤的推进，模型逐渐生成更优的解[6] - 未直接套用标准RL算法，因为标准RL优化期望奖励，而科学探索追求单一最高奖励[9] - 引入两个关键组件：一是熵目标函数，通过指数加权极端偏向高奖励样本；二是受PUCT启发的状态复用策略，确保搜索集中在最有前景的解决路径上[9] - 熵目标和PUCT复用策略的结合使TTT-Discover能够优先发现单一的最高奖励解决方案，而非多个方案的平均表现[10] 方法在数学领域的应用成果 - 在Erdős最小重叠问题上，之前人类最佳表现是0.380927，AI最佳表现是0.380924，而TTT-Discover刷新记录，取得了0.380876的成绩[11] - 使用gpt-oss-120b模型时，TTT-Discover在Erdős任务上的结果为0.380876，优于所有对比方法[12] 方法在GPU内核优化领域的应用成果 - 在GPUMODE竞赛的TriMul内核优化任务中，TTT-Discover在所有GPU类型上均达到当前最优水平[12] - 在A100 GPU上，TTT-Discover找到的最佳内核比人类专家提交的最优方案快50%[13] - 在所有GPU类型上，该方法相对于人类最佳结果实现了超过15%的性能提升[13] - 具体数据：在A100上，TTT-Discover的TriMul内核运行时间为2198.2微秒，远低于人类最佳成绩的4531.5微秒[14] 方法在算法竞赛领域的应用成果 - 在AtCoder的Geometry竞赛中，TTT-Discover得分为567,062，超越了第一名人类的566,997[16] - 在AtCoder的Scheduling竞赛中，TTT-Discover得分为848,414,228，超越了所有人类参赛者[16] 方法在生物学单细胞分析领域的应用成果 - 在单细胞分析的去噪任务中，TTT-Discover在PBMC数据集上取得了0.71的Score和0.15的MSE，在Tabula数据集上取得了0.73的Score和0.14的MSE，均优于其他对比方法[17] 方法的计算成本与未来方向 - 该方法计算成本低，使用OpenAI gpt-oss-120b模型并通过Thinking Machines的API Tinker，每个问题只需花费几百美元[3] - 该方法目前只能应用于具有连续奖励的问题，未来重要方向是针对具有稀疏奖励或二元奖励的问题进行扩展[17]