超越Claude Mythos和GPT-5.5!斯坦福推出Agent验证框架「LLM-as-a-Verifier」
机器之心·2026-04-26 13:00

研究团队与项目背景 - 该项目由斯坦福大学、加州大学伯克利分校与英伟达联合提出,核心贡献者包括斯坦福CS博士生Jacky Kwok和伯克利EECS博士生Shulu Li,通讯作者为UC伯克利教授兼Databricks创始人Ion Stoica、斯坦福教授Azalia Mirhoseini以及英伟达AI与自动驾驶研究总监Marco Pavone [2] - 研究团队提出了一种名为LLM-as-a-Verifier的通用Agent验证框架,该方法可与任意Agent Harness和模型结合 [2] 核心方法与技术突破 - 研究核心观点:通过扩展验证阶段的计算量,可以显著提升Agent的整体性能,并在AI编程基准Terminal-Bench上超越了GPT-5.5和Claude Mythos [2] - 该方法解决了现有Agent Harness在长时序任务中的关键问题:Agent虽能生成正确答案,但无法判断哪一次尝试是正确的 [8] - 该方法通过三个维度的扩展提升验证能力:评分token的细粒度、多次评估以及评价标准的分解,从而显著提高下游任务成功率 [9] - LLM-as-a-Verifier实现了从“裁判者”到“验证者”的范式转变,提供更细致、更具体的评估,以消除传统LLM-as-a-Judge方法中评分粒度粗糙导致的区分能力不足问题 [14][15] - 传统LLM-as-a-Judge方法在Terminal-Bench上出现了27%的平局情况,限制了评判的精确性 [11][12] 性能表现与基准测试结果 - 在AI编程基准Terminal-Bench 2.0的ForgeCode Scaffold上,LLM-as-a-Verifier取得了86.4%的准确率,超越了Opus 4.6的81.8%、Gemini 3.1 Pro的78.4%和GPT 5.4的81.8% [22] - 在SWE-Bench Verified的Scaffeld mini-sma-sone任务上,LLM-as-a-Verifier取得了77.8%的准确率,超越了Opus 4.6的75.6%、Gemini 3 Flash的75.8%和Opus 4.5的76.8% [22] - 该方法在Terminal-Bench和SWE-Bench Verified上均取得了当前最优性能 [5][21] 通用性与集成能力 - LLM-as-a-Verifier能够在不同的Agent Harness框架中实现无缝集成,具有通用性 [23] - 在ForgeCode(底层模型为GPT 5.4)中,其Best-of-5准确率达86.4%;在Terminus-Kira(底层模型为Opus 4.6)中,准确率达79.4%;在Terminus-2(底层模型为GPT-5.3-Codex)中,准确率达71.2% [23][27] - 这表明无论针对何种Agent Harness或模型,该验证方法皆可高效兼容并提升性能 [23] 方法优势与验证效果 - 相比传统LLM-as-a-Judge,LLM-as-a-Verifier在验证准确率和消除平局方面全面领先,即使在增加重复验证次数的情况下(如k=16),仍保持至少7%的验证准确率优势,并完全消除了平局现象 [24] - 增加评分token的粒度以及提高重复验证次数均能显著提高验证准确率,并且在评分token维度的细化分级中,量化误差得到了极大降低,从而更接近真实奖励 [26] - 该方法将轨迹验证解构为三个可组合的评估标准:规范合规性、输出格式和错误检测,放弃了传统的单一评分机制 [29][32]

超越Claude Mythos和GPT-5.5!斯坦福推出Agent验证框架「LLM-as-a-Verifier」 - Reportify