方法提出背景与核心理念 - 业界普遍采用“测试时搜索”方法,如进化搜索AlphaEvolve,但该方法无法让大语言模型(LLM)自身能力得到真正提升[1] - 斯坦福大学、英伟达等机构联合提出新方法:在测试时进行强化学习,让LLM在尝试解决特定测试问题的过程中持续训练自己,以应对科学发现这类超出训练数据的难题[2] - 该方法命名为“Test-Time Training to Discover”,其目标不是提升模型在各类问题上的平均表现,而是专注于为当前单一问题寻找一个最优解决方案[3] TTT-Discover方法的核心创新 - 方法核心是在测试阶段针对单个问题持续对LLM进行训练,通过训练步骤的推进,模型逐渐生成更优的解[6] - 未直接套用标准RL算法,因为标准RL优化期望奖励,而科学探索追求单一最高奖励[9] - 引入两个关键组件:一是熵目标函数,通过指数加权极端偏向高奖励样本;二是受PUCT启发的状态复用策略,确保搜索集中在最有前景的解决路径上[9] - 熵目标和PUCT复用策略的结合使TTT-Discover能够优先发现单一的最高奖励解决方案,而非多个方案的平均表现[10] 方法在数学领域的应用成果 - 在Erdős最小重叠问题上,之前人类最佳表现是0.380927,AI最佳表现是0.380924,而TTT-Discover刷新记录,取得了0.380876的成绩[11] - 使用gpt-oss-120b模型时,TTT-Discover在Erdős任务上的结果为0.380876,优于所有对比方法[12] 方法在GPU内核优化领域的应用成果 - 在GPUMODE竞赛的TriMul内核优化任务中,TTT-Discover在所有GPU类型上均达到当前最优水平[12] - 在A100 GPU上,TTT-Discover找到的最佳内核比人类专家提交的最优方案快50%[13] - 在所有GPU类型上,该方法相对于人类最佳结果实现了超过15%的性能提升[13] - 具体数据:在A100上,TTT-Discover的TriMul内核运行时间为2198.2微秒,远低于人类最佳成绩的4531.5微秒[14] 方法在算法竞赛领域的应用成果 - 在AtCoder的Geometry竞赛中,TTT-Discover得分为567,062,超越了第一名人类的566,997[16] - 在AtCoder的Scheduling竞赛中,TTT-Discover得分为848,414,228,超越了所有人类参赛者[16] 方法在生物学单细胞分析领域的应用成果 - 在单细胞分析的去噪任务中,TTT-Discover在PBMC数据集上取得了0.71的Score和0.15的MSE,在Tabula数据集上取得了0.73的Score和0.14的MSE,均优于其他对比方法[17] 方法的计算成本与未来方向 - 该方法计算成本低,使用OpenAI gpt-oss-120b模型并通过Thinking Machines的API Tinker,每个问题只需花费几百美元[3] - 该方法目前只能应用于具有连续奖励的问题,未来重要方向是针对具有稀疏奖励或二元奖励的问题进行扩展[17]
比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题