Workflow
4倍速吊打Cursor新模型,英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦,实测被曝性能“滑铁卢”?
英伟达英伟达(US:NVDA) 36氪·2025-10-31 20:16

产品发布与核心特性 - Cognition公司推出全新高速AI编码模型SWE-1 5,该模型专为软件工程任务中的高性能与高速度而设计,现已在Windsurf代码编辑器中开放使用 [1] - SWE-1 5是一款拥有数千亿参数的前沿规模模型,旨在同时提供顶尖性能与一流速度,其最显著的特点是原始速度,处理速度最高可达950 token/秒 [2] - 在Scale AI的SWE-Bench Pro基准测试中,SWE-1 5取得了40 08%的成绩,接近当前最佳水平(near-SOTA)的编码性能 [4] - 该模型并非单一模型,而是模型本身、推理过程与智能体框架协同设计的统一系统,以此同时实现高速与智能 [10] 性能优势与技术合作 - 得益于与推理服务提供商Cerebras的合作,SWE-1 5的运行速度最高可达Anthropic旗下Sonnet 4 5模型的13倍,是Haiku 4 5模型的6倍 [1][2] - 与竞争对手Cursor推出的Composer模型(生成速度为250 token/秒)相比,SWE-1 5的最高速度950 token/秒是其接近4倍 [14] - 通过合作部署优化措施,包括训练优化的草稿模型以实现更快的投机解码,以及构建定制化请求优先级系统,使端到端智能体交互过程更流畅 [2] - 公司将此前需20秒的某类任务完成时间控制在5秒以内,认为5秒是避免陷入“半异步死亡谷”的关键阈值 [2] 基础设施与训练方法 - SWE-1 5的训练依托于由数千颗英伟达GB200 NVL72芯片组成的先进集群,声称可能是首个基于新一代GB200芯片训练的公开生产级模型 [8] - 与相同数量的英伟达H100 GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍,成本和能耗最多可降低25倍 [8] - 模型的训练是在公司定制的Cascade智能体框架上,通过端到端强化学习完成的,并借助了由上千颗GB200芯片组成的集群 [8][10] - 公司为训练手动创建了一个数据集,力求还原真实场景下任务与编程语言的广泛分布,并设计了包含三种评分机制的高保真度编码环境 [9] 产品集成与内部应用 - 公司于今年7月收购开发工具Windsurf,并通过将SWE-1 5直接集成到Windsurf IDE中,逐步实现新愿景 [1][10] - 当模型运行速度提升后,公司重写了代码检查、命令执行流水线等核心组件,每一步操作的开销最多降低了2秒,并计划持续优化 [4] - 公司团队的众多工程师已将SWE-1 5作为日常工作工具,应用场景包括深度探索与理解大型代码库、构建端到端的全栈应用程序等 [7] - 公司高度依赖内部真实场景的“内部测试使用”来指导调优决策,以此围绕用户体验对智能体与模型进行调优 [11] 行业竞争与战略定位 - SWE-1 5的发布与Cursor推出Composer模型表明,AI开发者工具市场出现明确的战略趋同,两家公司都在构建高度集成、低延迟的开发者体验 [13] - 两家公司都大规模采用强化学习技术,并认同需要结合自有定制工具与真实场景对模型进行微调,才能打造真正高效的编码智能体 [13] - 公司此举似乎在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验也能培养出一批忠实用户 [12] - 两家公司均对新模型的基础架构保密,仅提及基于“领先的开源基础模型”构建,这种保密性使得独立评估难以开展 [13]