Composer 2 Fast
搜索文档
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
量子位· 2026-03-20 11:52
文章核心观点 - Cursor公司发布其最新编程模型Composer 2,该模型在多项基准测试上的性能超越了Claude Opus 4.6,同时价格实现了大幅下降,即“脚踝斩”[1][3][4] - 公司能够在行业普遍涨价的背景下实现降价,核心在于引入了一种名为“自我总结”的新强化学习方法,该方法通过训练使模型具备主动总结长任务上下文的能力,从而在提升性能的同时显著降低了成本[6][21][22] 模型性能与定价 - **性能表现**:Composer 2在CursorBench、Terminal-Bench 2.0和SWE-bench Multilingual等所有衡量基准上均取得大幅提升[11] - 在Terminal-Bench 2.0上的水平已跃居GPT-5.4和Claude Opus 4.6之间[12] - 具体基准分数:CursorBench为61.3,Terminal-Bench 2.0为61.7,SWE-bench Multilingual为73.7[15] - **定价策略**:Composer 2的价格远低于竞争对手,实现了“脚踝斩”[16] - 标准版定价:输入价格为0.5美元/百万tokens(约3.5元人民币),输出价格为2.5美元/百万tokens(约17.2元人民币)[15] - 快速变体Composer 2 Fast定价:输入为1.5美元/百万tokens(约10.3元人民币),输出为7.5美元/百万tokens(约51.7元人民币)[19] - **模型迭代速度**:从Composer 1到Composer 2的进化速度不断加快,性能提升显著[14][15] 核心技术:自我总结强化学习 - **解决的核心问题**:解决AI编程助手在处理长链条、复杂任务时,因上下文窗口有限而容易“掉链子”或遗忘关键信息的问题[25][26][27] - **方法原理**:该方法不是推理技巧,而是通过强化学习训练出来的能力[22][34] - 模型在任务执行过程中,会主动暂停并生成“阶段总结”(即“做笔记”),将关键信息压缩后传递至后续步骤[23][31] - 在强化学习过程中,总结能力被计入奖励函数,使模型学会区分并保留关键信息[35] - **技术优势**:相比传统的上下文压缩方法(如摘要法或滑动窗口),Cursor的新方法更高效、更准确[28][29] - 在高难度软件工程任务上,传统摘要法需要数千tokens的提示词,压缩后平均仍需5000+ tokens[37] - Composer方法仅需一句简单提示词(如“Please summarize the conversation”),压缩后输出平均仅1000个tokens[38] - 效果对比:Composer的token用量仅为传统方法的1/5,且压缩带来的错误减少了约50%[39] - **实际效果验证**:模型成功解决了经典长链条难题——将Doom游戏移植到MIPS架构[43][44] - 经过170轮交互,模型将超过10万tokens的上下文总结压缩至1000个,并最终找到精确解法[45] 公司战略与行业背景 - **行业背景**:随着大模型(文中喻为“龙虾”)的爆火,全球大模型Token消耗量呈指数级增长,导致年初以来国内外云厂商和大模型公司集体涨价[6][9] - **公司定位与目标**:Cursor在此背景下,将发展重心明确转向“性价比”[9][10] - 公司CEO表示,Cursor既不是纯粹的应用程序开发商,也不是纯粹的模型提供商,具有双重身份[48] - **产品迭代节奏**:公司发展节奏很快,在发布Composer 2后,研究员已开始放出Composer 3的消息[47]