Agent全自动搭建代码运行环境，实时更新解决评测过拟合/数据污染问题｜微软

代码修复评测基准 - 主流评测基准SWE-bench存在数据过时、覆盖面窄、维护成本高等问题，限制AI模型真实能力评估 [1] - 微软发布SWE-bench-Live新基准，引入GitHub最新Issue提升实时性，实现全自动化环境构建与更新 [1] - 首批任务覆盖1319个真实Issue，涉及93个开源项目，领域包括AI/ML、DevOps、Web开发等，增强评估多样性 [14][16] REPOLAUNCH技术框架 - 采用智能Agent框架REPOLAUNCH，自动识别CI/CD配置和README文件，完成Docker环境搭建与测试验证 [3][5] - 通过ReAct模式（推理+行动）迭代调试环境，模拟开发者行为并固化Docker镜像确保可复现性 [7][8] - 支持每月自动更新，消除数据泄露与模型过拟合风险，同时可扩展至新手环境配置、遗留项目重建等场景 [3][9][12] 模型性能对比 - 传统基准SWE-bench Verified中OpenHands+Claude 3.7 Sonnet准确率43.2%，在SWE-bench-Live降至19.25%，揭示静态基准过拟合问题 [10] - 模型对非原有SWE-bench仓库的Issue修复成功率（18.89%）显著低于原有仓库（22.96%），显示对新场景适应不足 [13][14] - 模型在单文件修改任务表现较好，但面对多文件、50万行以上大型项目时准确率急剧下降 [18] 基准技术指标 - 平均每个任务涉及3.3个文件修改，9个代码块（Hunks）和102.6行代码变更 [16] - 测试用例规模差异大：F2P测试平均5.4个，P2P测试中位数达1865个 [16] - 仓库代码规模中位数52k行，文件数量中位数222个，反映真实开发场景复杂度 [16]