过程规范(Process Specification)
搜索文档
我们对 Coding Agent 的评测,可能搞错了方向
Founder Park· 2026-01-16 20:22
当前Coding Agent评测体系的局限与错位 - 主流学术评测体系(如SWE-bench verified)存在盲区,其核心理念是结果导向指标,仅关注测试是否通过或Bug是否修复,不关注模型在沙盒中的输出过程或真实交互体验[4] - 这种评估方式导致评估结果与真实使用场景完全错位,无法反映Coding Agent在协作中的关键问题[4] - 用户对Agent的不满主要不在于其“做不到”,而在于其“做得不好”,即不遵循明确指令和潜在的工程规范,例如违反禁用emoji的要求或未按指令先备份就删除文件[3] MiniMax推出的新评测集OctoCodingBench - 为解决上述问题,MiniMax开源了新评测集OctoCodingBench,旨在评测Coding Agent在完成任务过程中是否遵守规矩[5] - 该评测集引入了两个核心评估维度:Check-level准确率(CSR)和Instance-level成功率(ISR)[8] - CSR用于衡量Coding Agent遵循规则的比例,ISR用于衡量Coding Agent是否遵循了每条规则[9] - 一个合格的Coding Agent需要在完成任务的同时,遵循包括系统提示中的全局约束、用户多轮指令、仓库规范文件(如[CLAUDE.md]/[AGENTS.md])、Skills文档调用流程以及Memory/Preferences中记录的用户偏好等多层次指令系统[10][11] 主流模型在过程规范遵循上的表现 - 测评结果显示,即便是最强的模型,在近三分之二(2/3)的任务中,代码可能是对的,但过程是错的[6] - 表现最强劲的Claude 4.5 Opus,其Instance-level成功率(ISR)仅为36.2%,这意味着在近三分之二的任务中,模型虽然完成了任务,但过程存在违规[13] - 开源模型正在快速追赶闭源模型,例如MiniMax M2.1和DeepSeek V3.2的ISR分别达到了26.1%和26%,超过了闭源模型Claude 4.5 Sonnet(22.8%)[13] - 具体模型ISR与CSR数据如下:MiniMax M2.1 (ISR: 0.261, CSR: 0.892)、Claude 4.5 Opus (ISR: 0.362, CSR: 0.912)、DeepSeek V3.2 (ISR: 0.26, CSR: 0.904)[14] Coding Agent能力演进与未来研究方向 - Coding Agent的能力边界正从“能否写出能跑的代码”转向“能否在复杂约束下协作式地完成任务”,其产品哲学是成为懂规矩、守纪律的团队成员,而非替代人类开发者[16] - 过程规范(Process Specification)被认为是Coding Agent进化的核心命题[17] - 未来研究方向包括引入过程监督(Process Supervision),因为当前所有模型的Check-level准确率(CSR)可以达到80%以上,但Instance-level成功率(ISR)只有10%-30%,存在断崖式下跌[15] - 绝大多数模型的指令遵循能力会随着交互轮次增多而下降,揭示了“过程合规”在长流程任务中的脆弱性[15] - 具体的研究方向包括:细粒度的过程监督、层级化的指令遵循训练以及构建可验证的Checklist[21]