Workflow
CursorBench
icon
搜索文档
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
量子位· 2026-03-14 11:51
CursorBench基准的发布与设计理念 - 编程智能体时代,顶流AI代码编辑器Cursor发布新的评测基准CursorBench,专门评价不同模型在Cursor中作为“智能体”高效执行复杂任务的能力[1] - CursorBench的出现填补了现有基准的空白,其核心区别在于:SWE-Bench等基准衡量程序能否解决问题,而CursorBench衡量的是程序能否在**真实的token约束下高效地**解决问题[3][6] - 行业评价AI的标准正转向“执行能力”,且强调“高效执行”[5] 现有基准测试的三大核心问题 - **任务类型不真实**:现有基准(如SWE-Bench修复GitHub issue,Terminal-Bench的谜题式任务)与开发者要求智能体完成的日常编程工作(如修改多个文件、分析生产日志)不契合[12][13][14][15] - **评分机制不合理**:许多基准假设一个问题只有一个正确答案,但现实中一个需求有多种实现方式,导致要么误判正确方案,要么为评估而人为消除模糊性,无法反映真实情况[16][17][18][19] - **数据污染问题**:基准公开时间过长后,后续模型可能直接抓取基准数据训练,导致评测结果价值存疑[20][21] CursorBench的“线上+线下混合评”方案 - **线下评测(CursorBench)**:让不同模型完成同一批标准任务,系统从正确性、代码质量、效率、交互行为等维度打分,得出离线benchmark分数,具有可重复测试、成本可控等优点[22][23][24] - **线上评测**:通过A/B Test观察真实用户使用不同模型后的效果,主要追踪开发者是否接受AI生成的代码、是否继续追问、是否撤销修改、任务是否真正完成等产品指标[40][41][42] - 线上线下形成互补与良性循环:线下快速筛选模型能力,线上验证真实效果,发现偏差后再调整基准或模型[43] CursorBench任务设计的三大独特维度 - **任务真**:任务来源真实,来自Cursor平台自身,利用Cursor Blame工具追踪开发者请求与模型最终提交的代码对,构成出题范本;许多任务来自内部代码库和受控来源,降低了模型训练阶段见过的风险,基准会每隔几个月更新以跟踪开发者使用方式的变化[26][27][28][29] - **任务规模大**:由于用户基数大,CursorBench任务规模明显更大,例如在正确性评估中,从初始版本到CursorBench-3,代码行数和平均文件数大致翻了一倍,反映了纳入更具挑战性任务(如处理monorepo多工作区、排查生产日志、执行长时间实验)的方式[30][31] - **任务描述刻意保持“模糊”**:与公开基准中详细的任务描述不同,CursorBench的任务描述模棱两可,以更符合现实中开发者与AI对话的真实场景[34][35] 模型在CursorBench上的表现与基准价值 - **模型表现差异显著**:Claude Haiku 4.5分数从73.3降至29.4,Claude Sonnet 4.5分数从77.2降至37.9,表明在新基准上表现大幅下滑[8];Claude Sonnet 4.5的“性价比”被认为较低,而Cursor自研的Composer模型表现引人注目[47][48] - **区分度更高**:CursorBench在前沿模型之间的区分度明显更高,在任务规模更大、环境更复杂的基准上,模型实力差距被放大,得分呈阶梯式分布,而非像SWE-Bench那样挤在一起[49] - **与真实用户体验一致**:通过线上实验验证,CursorBench的模型排名与线上产品指标(如代码接受率)的变化方向基本一致,表明其排名更能反映真实使用效果[51][52] 行业趋势与未来规划 - CursorBench是编程智能体时代真正以“真实开发场景”为原点设计的基准测试[38] - 行业预计未来一年绝大多数开发工作将转向由在各自计算机上独立运行的**长时运行智能体**来完成,因此公司正规划对CursorBench作出相应调整,瞄准运行时间更长的智能体[54]