Code World Model (CWM)
搜索文档
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 08:04
文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型,其采用世界模型架构,旨在通过模拟代码执行过程来提升推理和规划能力,代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型,支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上,CWM表现如下:SWE-bench Verified pass@1为65.8%,LiveCodeBench为68.6%,Math-500为96.6%,AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中,采用整文件编辑格式时,CWM的准确率为35.1%,与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上,CWM与Terminus 1智能体配合使用的准确率为26.3%,优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中,CWM在时间复杂度预测与生成的全部指标上均超越基线模型,例如时间复杂度的Code Only pass@1达到76.1%,优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台,用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟,使模型能够预测自身行为的后果,从而实现更有效的决策 [16][17][31] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
机器之心· 2025-09-25 11:20
机器之心报道 编辑:泽南、冷猫 大模型的架构,要彻底进化了? 昨晚开始,AI 圈都在研究一个神奇的新物种 ——Code World Model(CWM)。 Meta 重组后的 AI 部门推出的首个重磅研究,是一个 世界模型 ,用来写代码的。 它和「传统」的大语言模型(LLM)思路不同,理论是这样的: 当人类进行计划时,我们会在脑海中想象不同行动可能带来的结果。当我们推理代码时,我们会在心中模拟其部分执行过程。当前一代的大语言模型在这方面表 现不佳,往往难以做到真正的推理和模拟。那么,一个经过显式训练的代码世界模型(Code World Model)是不是能够开启新的研究方向呢? Math-500: 96.6% AIME 2024: 76.0% Meta 刚发布的这个 CWM,是一个 320 亿参数的开放权重 LLM,以推动基于世界模型的代码生成研究。 CWM 是一个稠密的、仅解码器结构的 LLM,支持最长 131k tokens 的上下文长度。独立于其世界建模能力,CWM 在通用编程与数学任务上表现出强大性能: SWE-bench Verified(含测试时扩展):pass@1 6 5.8% LiveCode ...