OpenClaw代码越改越崩？新研究EvoClaw揭示：Agents持续开发成功率仅13.37%

文章核心观点 - AI编程正从辅助工具向自主代理演进，但当前AI在真实软件开发所需的持续演进场景中表现存在显著差距，其能力被现有独立任务评测高估 [1][2][6] - 研究团队发布了名为EvoClaw的新评估基准，该基准通过模拟软件持续演进的真实场景，揭示了AI在长周期、多任务依赖的代码开发中存在“断崖式下跌”的性能瓶颈 [4][6][8] - 即便给予无限迭代窗口，AI模型的性能最终会撞上“天花板”，陷入演进停滞，其核心局限在于缺乏全局规划与系统治理能力，而非基础代码生成能力 [39][40][54] AI编程评测范式的演进与局限 - 传统编程评测（如SWE-bench）聚焦于“独立任务”，在静态代码快照中验证结果，忽略了软件持续演进的时间维度，导致评测分数虚高 [8] - 新基准EvoClaw的关键创新在于要求AI在同一个代码库中连续执行多个相互依赖的任务，实现了“开发环境持久化”，更能反映真实开发场景 [10] - 在EvoClaw的“持续演进”模式下，顶尖AI模型的综合得分从独立任务时的超过80%骤降至最高不到40%，完整解决率最高仅13.37% [6][34] 新评估基准EvoClaw的构建方法 - 研究团队提出了“里程碑”概念，作为介于琐碎提交和粗粒度发布之间的任务单元，以平衡语义完整性与依赖关系 [15][17] - 通过名为DeepCommit的Agent驱动流水线，将杂乱的Git历史自动重构为可验证的“里程碑任务依赖图”，该过程包括静态分析去噪、Agent构建DAG和运行环境解析验证三个阶段 [17][18][20][22] - 该流水线最终确保所有筛选出的里程碑任务100%标注出前置依赖且真实可执行，并为每个里程碑逆向生成明确的需求规格说明书以供评测 [26][27] 主要实验结果与模型表现分析 - 在EvoClaw评测中，Claude Opus 4.6模型以38.03%的综合得分位列第一，但其完整解决率仅为8.46% [33] - GPT-5.3-codex模型以28.88%的综合得分位居第二，且开销不到Claude Opus 4.6的三分之一，但在Rust语言项目上表现较弱 [33][36] - 国产模型（如Kimi、MiniMax）在EvoClaw的连续演进评测中，与Claude Opus 4.5相比仍有明显差距 [54] AI在持续演进中的行为模式与根本局限 - 所有模型在无限迭代下的性能最终都会趋于饱和，达到无法突破的上限，例如表现最优的Opus 4.6预计上限约为45% [39][40] - 模型在“召回率”（实现新功能）上能保持线性增长，但“精确率”（保持系统稳定性）会快速饱和，后者是导致演进停滞的主因 [42][43] - 错误链分析显示，前置错误的累积速度远超其修复速度，导致“技术债”不断积累直至“破产” [44][48] - AI Agent在项目后期的行为出现分化，部分陷入疯狂调试，部分提前放弃，缺乏对项目全局的统筹和主动重构能力 [53][54] 行业未来发展方向 - AI编程的下半场需从“代码生成”迈向“系统治理”，未来的突破关键在于让AI具备主动重构、全局规划和长期记忆的能力 [54] - 不同模型系列在持续演进能力上分化明显，Claude和GPT系列稳步提升，而Gemini系列则陷入单点能力提升但持续演进停滞的窘境 [54]