Workflow
PaperBench
icon
搜索文档
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
量子位· 2025-04-03 10:12
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI承认Claude是最好的了(狗头)。 刚刚开源的新基准测试 PaperBench ,6款前沿大模型驱动智能体PK 复现AI顶会论文 ,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。 与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench 更考验综合能力,不再是只执行单一任务 。 具体来说,智能体在评估中需要复刻来自ICML 2024的论文,任务包括理解论文、编写代码和执行实验。 最终成绩如下: Claude-3.5-Sonnet断崖式领先,第二名o1-high分数只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。 此外GPT-4o超过了推理模型o3-mini-high也算一个亮点。 | 2.6 ± 0.2 | | --- | | 4.1 ± 0.1 | | 3.2 ± 0.2 | | 6.0 ± 0.3 | | 13.2 ± 0.3 | | 21.0 ± 0.8 | 除了AI之间的PK, OpenAI这次还 招募顶尖的机器学习博士对比o1 。 虽然最终结论是AI在 ...