数据Scaling Law

搜索文档
天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课
机器之心· 2025-06-20 10:22
核心观点 - Skywork-SWE 是昆仑万维推出的自主代码智能体基座模型,专注于修复开源软件工程中的 bug,具备多轮交互、长上下文理解与逻辑推理能力 [2][7] - 该模型参数量达 32B,是目前同规模下最强的开源软件工程智能体之一,在 SWE-bench Verified 基准上取得 47% 的准确度,超越多个主流闭源模型 [7][25][33] - 其核心突破在于构建了业内最大规模、可验证的 SWE 数据集(10,169 个真实代码问题 + 8,209 条多轮交互轨迹),首次系统性验证了数据 Scaling Law 在复杂工程任务中的适用性 [11][13][40] 技术实现 数据集构建 - 从 15 万个 GitHub 仓库筛选出 10,169 个真实代码问题和 8,209 条多轮交互轨迹,覆盖 2,531 个仓库,远超同类数据集(如 SWE-Gym Lite 仅 230 个实例)[13][16][21] - 采用三阶段九步骤流程:数据采集与预筛选(阶段 A)、环境设置与执行验证(阶段 B)、智能体轨迹生成(阶段 C),确保每条样本可复现并通过单元测试 [12][16][17] - 数据复杂度显著更高:平均每个补丁涉及 2.3 个函数修改、6 个代码块、74 行代码变更,更贴近真实开发场景 [20][21] 模型性能 - 在 SWE-bench Verified 基准上,Skywork-SWE-32B 以 47% 准确度超越 DeepSeek-V3-0324(671B 参数)和 Claude 3.5(46%),并实现 38.0% pass@1 准确度刷新开源记录 [25][27][33] - 实验显示模型性能随数据规模呈指数级提升且未饱和,验证了数据 Scaling Law 的有效性 [27][29] - 采用测试时扩展(TTS)技术后,Best of 8 测试下准确率提升至 47% [30] 行业意义 - 填补了高质量 SWE 训练数据的空白,其数据集被类比为软件工程智能体的「ImageNet」[40] - 开创了「数据+系统+执行力」的智能体开发范式,未来将扩展至更多编程语言并支持在线强化学习探索 [41][42] - 是昆仑万维 Skywork 系列的重要落地成果,与其多模态推理模型、音乐模型、短剧创作模型等形成全链条布局 [42]