Workflow
基准测试
icon
搜索文档
GPT-5仅23.3%,全球AI集体挂科,地狱级编程考试,夺金神话破灭
36氪· 2025-09-22 19:27
SWE-Bench Pro基准测试概述 - 新一代AI编程智能体评估基准SWE-Bench Pro正式发布,专为评估真实企业级工程任务而设计[5][13] - 基准包含1865个经人工验证与增强的问题,分为公开集(731个实例)、商业集(276个实例)和保留集(858个实例)[18][19] - 相较于前代SWE-Bench,Pro版本在任务难度、抗数据污染能力和逼近真实代码库三大方面实现突破[4][6] 基准测试的核心设计特点 - 采用强著佐权许可证(GPL)代码库构建公开集和保留集,并从真实初创企业获取专有代码构建商业集,以降低数据污染风险[18] - 任务复杂度显著提升,排除了1-10行代码的修改,参考解决方案平均涉及4.1个文件和107.4行代码,所有任务至少修改10行代码[21] - 引入三阶段人机协同验证流程,确保任务可解,同时澄清模糊信息并补充缺失上下文[24] 主要大型语言模型表现 - 在公开集测试中,GPT-5以23.3%的解决率排名第一,Claude Opus 4.1以22.7%的解决率位列第二,其他模型得分均低于15%[7][25][26] - 在更具挑战的商业集测试中,模型表现进一步下降,最佳模型Claude Opus 4.1的解决率仅为17.8%,GPT-5为14.9%[27][28] - 早期代际模型如GPT-4o和DeepSeek Qwen-3 32B表现明显落后,解决率分别为4.9%和3.4%[25][26] 模型性能影响因素分析 - 模型性能因编程语言而异,在Go和Python任务中解决率较高(部分超过30%),但在JavaScript和TypeScript任务中波动较大(0%至超过30%)[30] - 代码仓库的复杂度、文档质量及问题类型显著影响模型表现,部分仓库所有模型解决率均低于10%,而有些仓库能达到50%[32] - 故障分析显示,不同模型的失败原因各异:Claude Opus 4.1主要问题在语义理解(错误解决方案占35.9%),而GPT-5则更多暴露工具使用差异[36] 行业意义与影响 - SWE-Bench Pro的推出解决了现有基准(如SWE-Bench Verified)可能在未来6-12个月内饱和的问题,为衡量AI编程进步提供了更真实的标尺[13][37] - 现有基准存在数据污染风险高和任务过于简单(如SWE-Bench Verified中32.2%的任务仅需修改1-2行代码)两大缺陷,无法反映工业级应用需求[14][16] - 该基准表明,在贴近真实世界的编程任务中,大型语言模型的长程编码能力仍是主要短板,距离工业级应用标准仍有差距[8][17]