Workflow
Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软
微软微软(US:MSFT) 量子位·2025-06-19 17:07

SWE-bench-Live 团队 投稿 量子位 | 公众号 QbitAI 长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模 型真实能力的展现。 微软发布全新代码修复评测基准 SWE-bench-Live ,不仅引入了来自GitHub最新的Issue,显著提升了对模型评估 的实时性与准确性,还实现代码运行环境的全自动化构建与自动更新,打破了传统静态评测基准的局限。 △ 图1: SWE-bench-Live leaderboard. 全自动化环境搭建 传统的代码修复评测基准需要人工构建代码运行环境,不仅成本高昂,且更新缓慢,难以跟上软件开发环境的快速变 化。SWE-bench-Live开创性地采用了基于Agent的智能化框架 REPOLAUNCH ,彻底解决了这些问题。 REPOLAUNCH可以根据Github中真实的Issue,自动搭建其Docker环境并执行测试验证,整个流程完全无人干预, 并且每月自动更新,持续提供最新鲜、最具代表性的评测数据。这种自动化的实时更新模式,消除了数据泄露与模型 过拟合风险。 △ 图2: 自动化流水线流程图 REPO ...