PaperBench - 财报，业绩电话会，研报，新闻

PaperBench

搜索文档

量子位· 2025-04-03 10:12

模型性能对比 - Claude-3.5-Sonnet在PaperBench基准测试中断崖式领先，第二名o1-high分数仅为第一名的60%，第三名DeepSeek-R1分数为第二名的一半[6] - GPT-4o表现超过推理模型o3-mini-high成为亮点[7] - 测试成绩数据：21.0 ± 0.8（Claude-3.5-Sonnet）、13.2 ± 0.3、6.0 ± 0.3、4.1 ± 0.1、3.2 ± 0.2、2.6 ± 0.2[9] 测试方法革新 - PaperBench相比去年10月MLE-Bnch测试更注重综合能力，要求复现ICML 2024论文全过程（理解/编码/实验）[3][4] - 选取20篇ICML 2024 Spotlight和Oral论文，涉及深度学习/概率方法/强化学习等8个领域，包含8316个可评分任务[15][17] - 采用开卷考试模式，允许有限联网搜索但屏蔽原论文代码库[18] 评估流程设计 - 三阶段流程：创建代码库→GPU执行→自动评分，全程在Ubuntu容器中完成[20] - 采用分级评分标准，按叶节点/父节点逐级评估，核心指标为论文平均复制分数[19] - 使用o3-mini作为裁判模型性价比最高，单篇论文评分成本66美元，比人类专家更经济高效[22][23] 人机对比实验 - AI在工作1-6小时内进度快于人类顶尖ML博士，12-24小时阶段持平，人类需24-48小时才能超越AI[11][12] - 测试显示AI裁判模型o1-mini的F1分数达0.78，接近人类专家0.84的水平[24] 技术开源进展 - 评估所需的代码/数据/Docker镜像已在GitHub逐步开源[25][26] - 公开了BasicAgent和IterativeAgent的系统Prompt模板，强调分步执行/代码规范/时间优化等原则[28][29][30][31] - 提供完整任务指令模板，包含资源说明/提交要求/代码示例等要素[34][36]

Artificial Intelligence

Large Language Model

Artificial Intelligence

Claude-3.5-Sonnet

PaperBench

GPT-4o

Artificial Intelligence

Large Language Model

Artificial Intelligence

Claude-3.5-Sonnet

PaperBench

GPT-4o