Workflow
代码世界模型(Code World Model
icon
搜索文档
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 16:04
代码世界模型技术突破 - Meta FAIR CodeGen研究团队发布全球首个代码世界模型,该模型拥有320亿参数,是密集解码器自回归开放权重大语言模型[4] - 与传统模型依赖静态代码训练不同,CWM在中期训练阶段引入Python解释器和代理Docker环境的大量"观察—动作"轨迹数据,通过动态交互提升代码理解和推理能力[7] - 模型采用多任务强化学习技术,在可验证编码、数学和多轮软件工程等场景中强化推理和规划水平,使其能模拟代码逐步执行过程[7] - CWM支持最高131k token的上下文输入,为复杂编程和推理任务提供更强语境理解能力[10] - 训练数据涵盖预训练、中期训练和后期训练阶段,特别通过Python执行轨迹和ForagerAgent两项大规模数据收集工作增强世界建模能力[10] 模型性能表现 - 在SWE-bench Verified任务中取得65.8%的分数,领先所有开源同规模模型,接近GPT-4水平[8] - 在LiveCodeBench上达到68.6%的得分,在Math-500上高达96.6%,在AIME 2024上取得76.0%的优异成绩[8] 行业技术演进 - 传统代码生成模型主要通过海量代码语料库学习统计模式预测标记,但存在合理但错误的代码、缺乏状态意识和多步骤任务困难三大陷阱[12][14][15] - CWM创新性地学习"代码是如何运行的"而不仅是"代码是如何编写的",通过代码执行轨迹和交互历史作为核心训练数据实现突破[14] - 模型训练采用标准三阶段流程:在8192上下文长度上预训练包含8T token,在131072上下文长度上中期训练包含5T token,最后通过监督微调和强化学习进行后训练[15][16] 公司战略调整 - 此次发布是Meta AI业务重组后首款模型,团队由博士生和经验丰富的资深员工组成[5][18] - Meta在6个月内进行第四次AI业务组织架构改革,将新成立的AI部门超级智能实验室分成四个小组:TBD实验室、FAIR实验室、PAR团队和MSL Infra基础设施团队[23][24] - 架构调整中首席AI科学家Yann LeCun的头衔未提及,被外界解读为边缘化或降级,象征基础研究在公司AI战略中地位相对弱化[24][25] - TBD实验室内部讨论下一代AI模型可能不再开源,意味着公司从"全面开源"转向"选择性闭源"战略重心出现重大转折[25] - CWM作为重组后首款开源模型表明Meta并未彻底放弃开源,仍在代码生成等关键领域通过开源维持学术界与开发者社区联系[26]