代码修复评测基准

搜索文档
Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软
量子位· 2025-06-19 17:07
代码修复评测基准 - 主流评测基准SWE-bench存在数据过时、覆盖面窄、维护成本高等问题,限制AI模型真实能力评估 [1] - 微软发布SWE-bench-Live新基准,引入GitHub最新Issue提升实时性,实现全自动化环境构建与更新 [1] - 首批任务覆盖1319个真实Issue,涉及93个开源项目,领域包括AI/ML、DevOps、Web开发等,增强评估多样性 [14][16] REPOLAUNCH技术框架 - 采用智能Agent框架REPOLAUNCH,自动识别CI/CD配置和README文件,完成Docker环境搭建与测试验证 [3][5] - 通过ReAct模式(推理+行动)迭代调试环境,模拟开发者行为并固化Docker镜像确保可复现性 [7][8] - 支持每月自动更新,消除数据泄露与模型过拟合风险,同时可扩展至新手环境配置、遗留项目重建等场景 [3][9][12] 模型性能对比 - 传统基准SWE-bench Verified中OpenHands+Claude 3.7 Sonnet准确率43.2%,在SWE-bench-Live降至19.25%,揭示静态基准过拟合问题 [10] - 模型对非原有SWE-bench仓库的Issue修复成功率(18.89%)显著低于原有仓库(22.96%),显示对新场景适应不足 [13][14] - 模型在单文件修改任务表现较好,但面对多文件、50万行以上大型项目时准确率急剧下降 [18] 基准技术指标 - 平均每个任务涉及3.3个文件修改,9个代码块(Hunks)和102.6行代码变更 [16] - 测试用例规模差异大:F2P测试平均5.4个,P2P测试中位数达1865个 [16] - 仓库代码规模中位数52k行,文件数量中位数222个,反映真实开发场景复杂度 [16]