pass@k指标
搜索文档
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]