让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果？

文章核心观点 - 文章通过让多个主流大语言模型（GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax）扮演审稿人，对NeurIPS 2025的获奖论文进行盲审，旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现，AI评审的结论与人类评审结果存在显著分歧，两篇官方最佳论文在AI评审中并未获得一致的最高评价，其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感，当评审视角从“综合评价”切换为“刻意挑错”时，即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景：1) 全文评测：模拟真实会议评审，观察AI与最终录用结果的一致性 [8]；2) 摘要评测：仅提供论文摘要，检验模型在信息不完整时的判断依据 [9]；3) 对抗性评测：通过提示模型“以最苛刻评审者的角度评分”，测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度，包括技术正确性、创新性、清晰度、意义、可复现性及总分，并需给出最终录用建议（接受/边缘/拒绝）及奖项等级判定 [12] 全文评测结果分析 - 论文一（Gated Attention for Large Language Models）：所有AI模型均未拒稿，但除GPT5（总分9，建议最佳论文）外，其他模型（Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax）普遍将其视为强论文（总分7.8-8.5），建议等级为海报、焦点或口头报告，上演了“小范围低估冠军作品” [16][18] - 论文二（1000 Layer Networks for Self-Supervised RL）：AI评审与人类评审分歧明显，GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间，建议等级为口头或焦点报告，无一建议最佳论文；而Minimax则给出全场最低的5.8分并建议拒绝，相当于对官方最佳论文的“当面否决” [23][25][26] - 论文三（Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?）：AI评审达成高度共识，五个模型总分均在8分以上，其中四个（Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax）打分达9或9.2，建议至少为口头报告，Minimax甚至建议最佳论文，与人类评审给出的口头报告结果基本同频 [30][31][32][33] - 论文四（Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies）：AI评审整体评价偏保守，GPT5和Minimax建议焦点报告，Claude 4.5和Gemini 3 Pro建议接受（海报），只有DeepSeek-V2.5明显更看好（总分9，建议口头报告），与大会结果一致 [36][37][38] 摘要评测结果分析 - 论文一：在仅提供摘要的条件下，所有AI模型的评价普遍“降了半档”，最高分由GPT5给出（8.5分），但建议从最佳论文降为焦点报告，AI更倾向于将其视为高质量工程分析型工作，而非一眼认定的冠军 [39][40][42] - 论文二：与全文评测相比，摘要评测阶段AI态度明显更“乐观”，模型普遍上调评分和预期，倾向于高估其通用性与实际价值，而弱化正文中可能隐藏的风险 [43][45] - 论文三：摘要评测几乎将该论文推至“冲奖区”，GPT5直接给出8.8分并建议最佳论文，其他模型也多建议口头报告，表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - 论文四：摘要评测出现“集体抬升”，GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告，Gemini 3 Pro和Minimax则直接建议最佳论文，AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - 论文一：在“以最苛刻评审者角度评分”的提示下，该最佳论文从“年度最佳”被重写为“工程小改动”，GPT5和DeepSeek-V2.5给出边缘建议，Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝，AI版“Reviewer 2”破坏力展露无遗 [54][55] - 论文二：对抗性评测进一步放大分歧，GPT5和DeepSeek-V2.5给出边缘建议，Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝，集中批评其创新性有限、理论分析不足，现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - 论文三：该论文成为争议最大对象之一，GPT5建议海报，DeepSeek-V2.5建议边缘，而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝，质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - 论文四：对抗性框架显著压低评价，GPT5建议海报，Claude 4.5和DeepSeek-V2.5建议边缘，Gemini 3 Pro和Minimax则拒绝，批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题：一是对提示词高度敏感，评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72]；二是对叙事语气极度“吃语气”，仅看摘要时，擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下，AI基于统一标准能提供更稳定、深入的分析，但其结论与真实评审结果存在分歧，可作为理解论文优劣与提升空间的辅助工具，而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一：门控注意力论文在多数模型眼中是稳妥的强论文（8-9分），但仅GPT5愿称其最佳；千层网络论文则更极端，评价从口头/焦点报告到直接拒绝，在AI世界中仅是“高争议强稿” [72]