我们对 Coding Agent 的评测,可能搞错了方向
Founder Park·2026-01-16 20:22

我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是: 用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在: Agent 不遵循明确给出的指令和潜在的工程规范。比如,系统提示里明确要求「不要使用 emoji」,Agent 却在代码注释里加上 笑脸;用户要求「先备份再修改」,Agent 上手就是一键 [rm -rf] 删除文件。 这些问题的共同特征是: 任务最终可能完成了 , 但过程违反了规范 。 用户要的不只是「能跑的代码」,还有「符合团队协作规范的代码」。 这也暴露了当前主流评测体系的盲区。 学术榜单,不管是 SWE-bench verified ,还是各种基于 terminal 环境的测试,核心理念几乎都是结果导向指标 。 只问两个问题:测试通过了吗?Bug 修复了吗? 这种评估方式,不看模型在沙盒里的输出过程,也不看真实场景的交互体验。 最后的结果是:评估和真实使用场景,完全错位。 为此, MiniMax 开源了一个新评测集:OctoCodingBench。 用来 评测 Coding Agent 在完成任务的过 ...

我们对 Coding Agent 的评测,可能搞错了方向 - Reportify