Workflow
世界动作模型(WAM)
icon
搜索文档
世界模型开始做减法?LeCun团队和清华团队给出两种思路
机器之心· 2026-03-24 17:17
世界模型技术演进方向 - 近期有两项关于“世界模型”的研究工作受到关注,分别从“学习”和“推理”两个维度对主流思路进行了补充与修正 [1][2][4] - 一项来自Yann LeCun团队,名为LeWorldModel,旨在以更简洁的联合嵌入预测架构实现端到端训练 [1] - 另一项来自清华大学团队,名为Fast-WAM,重新审视了世界动作模型在推理阶段是否需要显式生成未来的问题 [2] - 两项工作为理解该方向的技术演进提供了不同切入点,建议结合阅读 [4][5] LeWorldModel (LeWM) 研究核心 - 研究团队提出了首个能够从原始像素端到端稳定训练的JEPA模型,仅使用一个下一步嵌入预测损失和一个分布正则项,将可调损失超参数数量从六个减少到一个 [11] - 模型约1500万参数,可在单张GPU上数小时内完成训练;在规划速度上,相比基于基础模型的世界模型最高可提升约48倍 [13] - 该方法在多样的2D与3D控制任务中保持竞争力,其潜在空间能够编码有意义的物理结构,并能可靠检测物理上不合理的事件 [13] - 方法框架由视觉编码器和动力学预测器组成,在潜在空间中完成建模与决策,形成从像素输入到动作输出的闭环 [15][17] Fast-WAM 研究核心 - 研究探讨世界动作模型在测试阶段是否必须进行显式的未来想象,结论是关键性能提升主要来源于训练阶段的视频建模能力 [19] - 团队提出了Fast-WAM,一种在训练中保留视频协同训练,但在测试时跳过未来预测的新型架构 [19] - 实验表明,Fast-WAM在性能上可与“先想象再执行”的模型竞争,而一旦移除视频协同训练,性能则会显著下降 [19] - Fast-WAM推理延迟仅为190毫秒,可实现实时运行,相比现有“先想象再执行”的WAM设计提速超过4倍 [22]