超越Claude Mythos和GPT-5.5！斯坦福推出Agent验证框架「LLM-as-a-Verifier」

研究团队与项目背景 - 该项目由斯坦福大学、加州大学伯克利分校与英伟达联合提出，核心贡献者包括斯坦福CS博士生Jacky Kwok和伯克利EECS博士生Shulu Li，通讯作者为UC伯克利教授兼Databricks创始人Ion Stoica、斯坦福教授Azalia Mirhoseini以及英伟达AI与自动驾驶研究总监Marco Pavone [2] - 研究团队提出了一种名为LLM-as-a-Verifier的通用Agent验证框架，该方法可与任意Agent Harness和模型结合 [2] 核心方法与技术突破 - 研究核心观点：通过扩展验证阶段的计算量，可以显著提升Agent的整体性能，并在AI编程基准Terminal-Bench上超越了GPT-5.5和Claude Mythos [2] - 该方法解决了现有Agent Harness在长时序任务中的关键问题：Agent虽能生成正确答案，但无法判断哪一次尝试是正确的 [8] - 该方法通过三个维度的扩展提升验证能力：评分token的细粒度、多次评估以及评价标准的分解，从而显著提高下游任务成功率 [9] - LLM-as-a-Verifier实现了从“裁判者”到“验证者”的范式转变，提供更细致、更具体的评估，以消除传统LLM-as-a-Judge方法中评分粒度粗糙导致的区分能力不足问题 [14][15] - 传统LLM-as-a-Judge方法在Terminal-Bench上出现了27%的平局情况，限制了评判的精确性 [11][12] 性能表现与基准测试结果 - 在AI编程基准Terminal-Bench 2.0的ForgeCode Scaffold上，LLM-as-a-Verifier取得了86.4%的准确率，超越了Opus 4.6的81.8%、Gemini 3.1 Pro的78.4%和GPT 5.4的81.8% [22] - 在SWE-Bench Verified的Scaffeld mini-sma-sone任务上，LLM-as-a-Verifier取得了77.8%的准确率，超越了Opus 4.6的75.6%、Gemini 3 Flash的75.8%和Opus 4.5的76.8% [22] - 该方法在Terminal-Bench和SWE-Bench Verified上均取得了当前最优性能 [5][21] 通用性与集成能力 - LLM-as-a-Verifier能够在不同的Agent Harness框架中实现无缝集成，具有通用性 [23] - 在ForgeCode（底层模型为GPT 5.4）中，其Best-of-5准确率达86.4%；在Terminus-Kira（底层模型为Opus 4.6）中，准确率达79.4%；在Terminus-2（底层模型为GPT-5.3-Codex）中，准确率达71.2% [23][27] - 这表明无论针对何种Agent Harness或模型，该验证方法皆可高效兼容并提升性能 [23] 方法优势与验证效果 - 相比传统LLM-as-a-Judge，LLM-as-a-Verifier在验证准确率和消除平局方面全面领先，即使在增加重复验证次数的情况下（如k=16），仍保持至少7%的验证准确率优势，并完全消除了平局现象 [24] - 增加评分token的粒度以及提高重复验证次数均能显著提高验证准确率，并且在评分token维度的细化分级中，量化误差得到了极大降低，从而更接近真实奖励 [26] - 该方法将轨迹验证解构为三个可组合的评估标准：规范合规性、输出格式和错误检测，放弃了传统的单一评分机制 [29][32]