世界动作模型（WAM） - 财报，业绩电话会，研报，新闻 - Reportify

世界动作模型（WAM）

搜索文档

世界模型开始做减法？LeCun团队和清华团队给出两种思路

机器之心· 2026-03-24 17:17

世界模型技术演进方向 - 近期有两项关于“世界模型”的研究工作受到关注，分别从“学习”和“推理”两个维度对主流思路进行了补充与修正 [1][2][4] - 一项来自Yann LeCun团队，名为LeWorldModel，旨在以更简洁的联合嵌入预测架构实现端到端训练 [1] - 另一项来自清华大学团队，名为Fast-WAM，重新审视了世界动作模型在推理阶段是否需要显式生成未来的问题 [2] - 两项工作为理解该方向的技术演进提供了不同切入点，建议结合阅读 [4][5] LeWorldModel (LeWM) 研究核心 - 研究团队提出了首个能够从原始像素端到端稳定训练的JEPA模型，仅使用一个下一步嵌入预测损失和一个分布正则项，将可调损失超参数数量从六个减少到一个 [11] - 模型约1500万参数，可在单张GPU上数小时内完成训练；在规划速度上，相比基于基础模型的世界模型最高可提升约48倍 [13] - 该方法在多样的2D与3D控制任务中保持竞争力，其潜在空间能够编码有意义的物理结构，并能可靠检测物理上不合理的事件 [13] - 方法框架由视觉编码器和动力学预测器组成，在潜在空间中完成建模与决策，形成从像素输入到动作输出的闭环 [15][17] Fast-WAM 研究核心 - 研究探讨世界动作模型在测试阶段是否必须进行显式的未来想象，结论是关键性能提升主要来源于训练阶段的视频建模能力 [19] - 团队提出了Fast-WAM，一种在训练中保留视频协同训练，但在测试时跳过未来预测的新型架构 [19] - 实验表明，Fast-WAM在性能上可与“先想象再执行”的模型竞争，而一旦移除视频协同训练，性能则会显著下降 [19] - Fast-WAM推理延迟仅为190毫秒，可实现实时运行，相比现有“先想象再执行”的WAM设计提速超过4倍 [22]

联合嵌入预测架构（JEPA）

世界动作模型（WAM）

LeWorldModel（LeWM）

联合嵌入预测架构（JEPA）

世界动作模型（WAM）

LeWorldModel（LeWM）