Workflow
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,底模越好性能越高,已开源
量子位·2025-08-19 11:13

核心观点 - SE-Agent框架通过自进化机制显著提升大语言模型在复杂推理任务中的表现,在SWE-Bench Verified基准上实现80%的Top-1 Resolution Rate,刷新领域纪录 [2] - 该框架突破传统独立尝试模式,引入集体进化思想,通过修订、重组、精炼三大算子实现轨迹级优化 [6] - 在开源模型测试中表现突出:DeepSeek-V3提升73%至54.8%,Qwen-2-5-72B提升106%至38.8%,Llama-3-1-70B提升112%至32.6% [12] - Claude-3-7-Sonnet应用该框架后解题成功率从40.6%提升至61.2%,相对提升51% [18] 技术架构 自进化机制 - 修订算子:通过多样性初始生成和深度反思修正,消除逻辑不一致和冗余推理 [8] - 重组算子:创新性实现跨轨迹知识共享,包括交叉融合优势基因和知识迁移 [9] - 精炼算子:通过多维度评估函数进行精英选择和多样性保持,实现高效进化收敛 [10] 性能优势 - 解决方案多样性:通过轨迹级干预生成本质不同的解决路径,扩展候选方案空间 [15] - 跨轨迹协同:充分利用轨迹间相互依赖关系,突破单一智能体认知局限 [15] - 模型兼容性:作为独立优化模块可与现有框架无缝集成,在多种LLM上表现一致 [16] 实证表现 基准测试 - 在500个真实GitHub问题的SWE-bench Verified基准上全面评测,所有测试LLM均实现显著提升 [11] - 消融实验证明修订和重组两大模块对框架成功至关重要 [14] 案例研究 - 在scikit-learn案例中,传统方法修复失败率78.6%,SE-Agent通过定位multioutput.py文件关键字段实现根本性修复 [20] - 展示框架如何通过轨迹演化避免"隧道视野",发现隐藏更深的解决方案 [21] 行业影响 - 开创轨迹级优化范式,从参数调整转向系统性推理路径操作 [22] - 验证集体智慧机制是突破单一智能体认知瓶颈的有效途径 [23] - 为构建持续自我改进的智能体系统奠定基础,未来可扩展至强化学习策略发现等领域 [24]