文章核心观点 - AI编程正从辅助工具向自主代理演进,但当前AI在真实软件开发所需的持续演进场景中表现存在显著差距,其能力被现有独立任务评测高估 [1][2][6] - 研究团队发布了名为EvoClaw的新评估基准,该基准通过模拟软件持续演进的真实场景,揭示了AI在长周期、多任务依赖的代码开发中存在“断崖式下跌”的性能瓶颈 [4][6][8] - 即便给予无限迭代窗口,AI模型的性能最终会撞上“天花板”,陷入演进停滞,其核心局限在于缺乏全局规划与系统治理能力,而非基础代码生成能力 [39][40][54] AI编程评测范式的演进与局限 - 传统编程评测(如SWE-bench)聚焦于“独立任务”,在静态代码快照中验证结果,忽略了软件持续演进的时间维度,导致评测分数虚高 [8] - 新基准EvoClaw的关键创新在于要求AI在同一个代码库中连续执行多个相互依赖的任务,实现了“开发环境持久化”,更能反映真实开发场景 [10] - 在EvoClaw的“持续演进”模式下,顶尖AI模型的综合得分从独立任务时的超过80%骤降至最高不到40%,完整解决率最高仅13.37% [6][34] 新评估基准EvoClaw的构建方法 - 研究团队提出了“里程碑”概念,作为介于琐碎提交和粗粒度发布之间的任务单元,以平衡语义完整性与依赖关系 [15][17] - 通过名为DeepCommit的Agent驱动流水线,将杂乱的Git历史自动重构为可验证的“里程碑任务依赖图”,该过程包括静态分析去噪、Agent构建DAG和运行环境解析验证三个阶段 [17][18][20][22] - 该流水线最终确保所有筛选出的里程碑任务100%标注出前置依赖且真实可执行,并为每个里程碑逆向生成明确的需求规格说明书以供评测 [26][27] 主要实验结果与模型表现分析 - 在EvoClaw评测中,Claude Opus 4.6模型以38.03%的综合得分位列第一,但其完整解决率仅为8.46% [33] - GPT-5.3-codex模型以28.88%的综合得分位居第二,且开销不到Claude Opus 4.6的三分之一,但在Rust语言项目上表现较弱 [33][36] - 国产模型(如Kimi、MiniMax)在EvoClaw的连续演进评测中,与Claude Opus 4.5相比仍有明显差距 [54] AI在持续演进中的行为模式与根本局限 - 所有模型在无限迭代下的性能最终都会趋于饱和,达到无法突破的上限,例如表现最优的Opus 4.6预计上限约为45% [39][40] - 模型在“召回率”(实现新功能)上能保持线性增长,但“精确率”(保持系统稳定性)会快速饱和,后者是导致演进停滞的主因 [42][43] - 错误链分析显示,前置错误的累积速度远超其修复速度,导致“技术债”不断积累直至“破产” [44][48] - AI Agent在项目后期的行为出现分化,部分陷入疯狂调试,部分提前放弃,缺乏对项目全局的统筹和主动重构能力 [53][54] 行业未来发展方向 - AI编程的下半场需从“代码生成”迈向“系统治理”,未来的突破关键在于让AI具备主动重构、全局规划和长期记忆的能力 [54] - 不同模型系列在持续演进能力上分化明显,Claude和GPT系列稳步提升,而Gemini系列则陷入单点能力提升但持续演进停滞的窘境 [54]
OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%
量子位·2026-03-25 12:58