我们对 Coding Agent 的评测，可能搞错了方向

当前Coding Agent评测体系的局限与错位 - 主流学术评测体系（如SWE-bench verified）存在盲区，其核心理念是结果导向指标，仅关注测试是否通过或Bug是否修复，不关注模型在沙盒中的输出过程或真实交互体验[4] - 这种评估方式导致评估结果与真实使用场景完全错位，无法反映Coding Agent在协作中的关键问题[4] - 用户对Agent的不满主要不在于其“做不到”，而在于其“做得不好”，即不遵循明确指令和潜在的工程规范，例如违反禁用emoji的要求或未按指令先备份就删除文件[3] MiniMax推出的新评测集OctoCodingBench - 为解决上述问题，MiniMax开源了新评测集OctoCodingBench，旨在评测Coding Agent在完成任务过程中是否遵守规矩[5] - 该评测集引入了两个核心评估维度：Check-level准确率（CSR）和Instance-level成功率（ISR）[8] - CSR用于衡量Coding Agent遵循规则的比例，ISR用于衡量Coding Agent是否遵循了每条规则[9] - 一个合格的Coding Agent需要在完成任务的同时，遵循包括系统提示中的全局约束、用户多轮指令、仓库规范文件（如[CLAUDE.md]/[AGENTS.md]）、Skills文档调用流程以及Memory/Preferences中记录的用户偏好等多层次指令系统[10][11] 主流模型在过程规范遵循上的表现 - 测评结果显示，即便是最强的模型，在近三分之二（2/3）的任务中，代码可能是对的，但过程是错的[6] - 表现最强劲的Claude 4.5 Opus，其Instance-level成功率（ISR）仅为36.2%，这意味着在近三分之二的任务中，模型虽然完成了任务，但过程存在违规[13] - 开源模型正在快速追赶闭源模型，例如MiniMax M2.1和DeepSeek V3.2的ISR分别达到了26.1%和26%，超过了闭源模型Claude 4.5 Sonnet（22.8%）[13] - 具体模型ISR与CSR数据如下：MiniMax M2.1 (ISR: 0.261, CSR: 0.892)、Claude 4.5 Opus (ISR: 0.362, CSR: 0.912)、DeepSeek V3.2 (ISR: 0.26, CSR: 0.904)[14] Coding Agent能力演进与未来研究方向 - Coding Agent的能力边界正从“能否写出能跑的代码”转向“能否在复杂约束下协作式地完成任务”，其产品哲学是成为懂规矩、守纪律的团队成员，而非替代人类开发者[16] - 过程规范（Process Specification）被认为是Coding Agent进化的核心命题[17] - 未来研究方向包括引入过程监督（Process Supervision），因为当前所有模型的Check-level准确率（CSR）可以达到80%以上，但Instance-level成功率（ISR）只有10%-30%，存在断崖式下跌[15] - 绝大多数模型的指令遵循能力会随着交互轮次增多而下降，揭示了“过程合规”在长流程任务中的脆弱性[15] - 具体的研究方向包括：细粒度的过程监督、层级化的指令遵循训练以及构建可验证的Checklist[21]