100行代码打造迷你编程Agent：能修复65%真实项目bug，适配所有大模型

核心观点 - mini-SWE-agent是一个极简开源编程代理项目，仅用100行核心代码即可在SWE-bench上解决65%的问题，性能与原版SWE-agent相当但架构更轻量[2][3][4] - 该项目不依赖额外插件和特定模型，支持主流语言模型本地终端部署，简化了传统agent的复杂工具链和多轮对话管理流程[2][9][10][14] - 通过取消工具调用接口、采用线性历史记录和独立单步执行等设计，实现代码量缩减100倍的同时保留核心功能[12][14][16] 技术架构 - 极简代码：核心Python代码仅100行，总代码量约200行，取消YAML配置改用内置模板[14][16] - 基础命令运行：完全依赖Bash环境执行命令，模型直接输出完整shell指令而非专用协议[14] - 执行机制：每条命令通过Python独立执行，支持沙盒操作和扩展，内置Docker等容器化支持[16][17] - 性能保留：在SWE-bench验证集保持65%问题解决率，附带批量推理和轨迹浏览器等工具[15][18] 应用场景 - 本地开发：适合快速本地运行和稳定评估环境，可作为命令行工具或Python库集成[20][22] - 模型实验：轻量特性使其适合微调和强化学习研究，避免对复杂框架的过拟合[20] - 对比选择：需要高度可配置工具链时选择SWE-agent，追求简洁时选择mini版本[20] 项目背景 - 由SWE-bench原班团队开发，延续了评估LLM编程能力的核心目标[7][24] - 源自GitHub真实开发流程的结构化思考，将issue修复过程转化为标准评估流程[27] - 提出的Agent-Computer-Interface定义了智能体与计算机交互的标准接口方式[25] 行业影响 - SWE-bench已成为评估大语言模型编程能力的经典基准[25] - 项目推动软件工程代理研究，使AI开发能力变得可观察和可比较[25][27] - 极简设计降低智能代理使用门槛，促进更灵活的AI编程应用[21][23]