大型语言模型与过程级奖励模型 - 大型语言模型(LLMs)在复杂推理任务中的能力提升很大程度上依赖过程级奖励模型(PRMs)的赋能 [1] - 最新研究发现现有PRMs在识别推理过程细微错误方面表现不佳,甚至可能不如随机猜测 [2] - 当前评估方法过度关注最终结果正确性,忽视对推理过程中错误类型的细粒度识别 [3] PRMBench基准的核心价值 - PRMBench是首个专为评估PRMs精细化错误检测能力设计的挑战性基准 [4] - 包含6216个问题和83456个步骤级细粒度标签,覆盖各种复杂推理场景 [11] - 从简洁性、合理性和敏感性三大维度细分九个评估子类别 [11] - 相比其他基准,PRMBench在错误类型检测、步骤评估等方面具有全面优势 [18] PRMBench的关键发现 - 表现最佳模型Gemini-2-Thinking的PRMScore仅68.8,远低于人类水平的83.8 [11] - 开源PRMs普遍落后于将主流LLMs提示为Critic模型的性能 [11] - 简洁性维度成为最大挑战,最佳模型ReasonEval-34B得分骤降至51.5 [17] - 部分模型存在显著"阳性偏好",正确步骤识别准确率超95%,但错误步骤识别仅17% [17] PRMs的潜在问题与局限性 - PRMs性能随错误步骤在推理链中位置后移而渐进式提升 [33] - 少样本ICL对闭源模型性能影响有限,提示需要更深层次的改进 [36] - PRMs易受"假阳性"影响,存在被模型"钻空子"的风险 [37] - 现有PRMs在多步过程评估中能力有限,提升空间巨大 [27] 研究意义与行业影响 - PRMBench将推动过程级奖励模型评估研究的范式转变 [42] - 为未来PRM开发提供关键指导,助力构建更可靠的AI系统 [42] - 促进开发更具鲁棒性和泛化能力的模型 [42] - 成为推动过程级奖励模型发展的坚实基石 [41]
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心·2025-07-27 16:45