Workflow
100行代码打造迷你编程Agent:能修复65%真实项目bug,适配所有大模型
量子位·2025-07-27 19:57

核心观点 - mini-SWE-agent是一个极简开源编程代理项目,仅用100行核心代码即可在SWE-bench上解决65%的问题,性能与原版SWE-agent相当但架构更轻量[2][3][4] - 该项目不依赖额外插件和特定模型,支持主流语言模型本地终端部署,简化了传统agent的复杂工具链和多轮对话管理流程[2][9][10][14] - 通过取消工具调用接口、采用线性历史记录和独立单步执行等设计,实现代码量缩减100倍的同时保留核心功能[12][14][16] 技术架构 - 极简代码:核心Python代码仅100行,总代码量约200行,取消YAML配置改用内置模板[14][16] - 基础命令运行:完全依赖Bash环境执行命令,模型直接输出完整shell指令而非专用协议[14] - 执行机制:每条命令通过Python独立执行,支持沙盒操作和扩展,内置Docker等容器化支持[16][17] - 性能保留:在SWE-bench验证集保持65%问题解决率,附带批量推理和轨迹浏览器等工具[15][18] 应用场景 - 本地开发:适合快速本地运行和稳定评估环境,可作为命令行工具或Python库集成[20][22] - 模型实验:轻量特性使其适合微调和强化学习研究,避免对复杂框架的过拟合[20] - 对比选择:需要高度可配置工具链时选择SWE-agent,追求简洁时选择mini版本[20] 项目背景 - 由SWE-bench原班团队开发,延续了评估LLM编程能力的核心目标[7][24] - 源自GitHub真实开发流程的结构化思考,将issue修复过程转化为标准评估流程[27] - 提出的Agent-Computer-Interface定义了智能体与计算机交互的标准接口方式[25] 行业影响 - SWE-bench已成为评估大语言模型编程能力的经典基准[25] - 项目推动软件工程代理研究,使AI开发能力变得可观察和可比较[25][27] - 极简设计降低智能代理使用门槛,促进更灵活的AI编程应用[21][23]