Nvidia-4倍速吊打Cursor新模型，英伟达数千GB200堆出的SWE-1.5，圆了Devin的梦，实测被曝性能“滑铁卢”？

产品发布与核心特性 - Cognition公司推出全新高速AI编码模型SWE-1 5，该模型专为软件工程任务中的高性能与高速度而设计，现已在Windsurf代码编辑器中开放使用 [1] - SWE-1 5是一款拥有数千亿参数的前沿规模模型，旨在同时提供顶尖性能与一流速度，其最显著的特点是原始速度，处理速度最高可达950 token/秒 [2] - 在Scale AI的SWE-Bench Pro基准测试中，SWE-1 5取得了40 08%的成绩，接近当前最佳水平（near-SOTA）的编码性能 [4] - 该模型并非单一模型，而是模型本身、推理过程与智能体框架协同设计的统一系统，以此同时实现高速与智能 [10] 性能优势与技术合作 - 得益于与推理服务提供商Cerebras的合作，SWE-1 5的运行速度最高可达Anthropic旗下Sonnet 4 5模型的13倍，是Haiku 4 5模型的6倍 [1][2] - 与竞争对手Cursor推出的Composer模型（生成速度为250 token/秒）相比，SWE-1 5的最高速度950 token/秒是其接近4倍 [14] - 通过合作部署优化措施，包括训练优化的草稿模型以实现更快的投机解码，以及构建定制化请求优先级系统，使端到端智能体交互过程更流畅 [2] - 公司将此前需20秒的某类任务完成时间控制在5秒以内，认为5秒是避免陷入“半异步死亡谷”的关键阈值 [2] 基础设施与训练方法 - SWE-1 5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群，声称可能是首个基于新一代GB200芯片训练的公开生产级模型 [8] - 与相同数量的英伟达H100 GPU相比，GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍，成本和能耗最多可降低25倍 [8] - 模型的训练是在公司定制的Cascade智能体框架上，通过端到端强化学习完成的，并借助了由上千颗GB200芯片组成的集群 [8][10] - 公司为训练手动创建了一个数据集，力求还原真实场景下任务与编程语言的广泛分布，并设计了包含三种评分机制的高保真度编码环境 [9] 产品集成与内部应用 - 公司于今年7月收购开发工具Windsurf，并通过将SWE-1 5直接集成到Windsurf IDE中，逐步实现新愿景 [1][10] - 当模型运行速度提升后，公司重写了代码检查、命令执行流水线等核心组件，每一步操作的开销最多降低了2秒，并计划持续优化 [4] - 公司团队的众多工程师已将SWE-1 5作为日常工作工具，应用场景包括深度探索与理解大型代码库、构建端到端的全栈应用程序等 [7] - 公司高度依赖内部真实场景的“内部测试使用”来指导调优决策，以此围绕用户体验对智能体与模型进行调优 [11] 行业竞争与战略定位 - SWE-1 5的发布与Cursor推出Composer模型表明，AI开发者工具市场出现明确的战略趋同，两家公司都在构建高度集成、低延迟的开发者体验 [13] - 两家公司都大规模采用强化学习技术，并认同需要结合自有定制工具与真实场景对模型进行微调，才能打造真正高效的编码智能体 [13] - 公司此举似乎在押注：即便没有推出市场上参数规模绝对最大的模型，这种高度集成的高速体验也能培养出一批忠实用户 [12] - 两家公司均对新模型的基础架构保密，仅提及基于“领先的开源基础模型”构建，这种保密性使得独立评估难以开展 [13]