首个代码世界模型引爆AI圈，能让智能体学会「真推理」，Meta开源

文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型，其采用世界模型架构，旨在通过模拟代码执行过程来提升推理和规划能力，代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型，支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练，并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练，使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上，CWM表现如下：SWE-bench Verified pass@1为65.8%，LiveCodeBench为68.6%，Math-500为96.6%，AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中，采用整文件编辑格式时，CWM的准确率为35.1%，与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上，CWM与Terminus 1智能体配合使用的准确率为26.3%，优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中，CWM在时间复杂度预测与生成的全部指标上均超越基线模型，例如时间复杂度的Code Only pass@1达到76.1%，优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台，用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟，使模型能够预测自身行为的后果，从而实现更有效的决策 [16][17][31] - 消融实验表明，世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]