文章核心观点 - 研究提出并验证了JEPA-WM(联合嵌入预测世界模型),该模型通过在高度抽象的表征空间内进行预测,而非像素级重建,旨在为智能体(如机器人)构建一个更理性的“大脑”,以提升其在物理世界中的规划能力[3][5] - 研究通过系统性的实验,揭示了驱动物理规划成功的关键因素,包括模型架构、目标函数和规划算法的选择,并最终提出了针对不同任务复杂度的最优配置方案[5][26] JEPA-WM核心方法 - 模型采用层次化的编码与预测架构,核心组件包括:使用预训练且冻结的ViT权重(如DINOv2/v3)的视觉编码器、捕捉机器人自身状态的本体感受编码器、将控制指令转化为特征向量的动作编码器,以及接收过去观测与动作序列以预测下一时刻状态嵌入的预测器[15] - 在训练中引入了多步展开损失,使模型不仅能预测下一帧,还能基于自身预测递归生成后续状态,并采用截断反向传播以提高训练效率[10] - 在动作信息干预预测过程上,对比了三种方案:特征调节、序列调节以及表现更优的自适应层归一化(AdaLN),AdaLN能有效防止动作信号在深层网络中“淡出”[16] - 规划被建模为在动作空间上的优化问题,智能体在其内部模型中“试运行”多条候选路径,通过最小化预测终点与目标嵌入向量之间的距离来寻找最优动作序列[11] 实验设计与关键发现 - 实验在多个模拟环境(Metaworld的42个操纵任务、Push-T、PointMaze)和真实机械臂数据集(DROID)上进行评估[13] - 规划器选择:在成本曲线平滑的任务(如Metaworld)中,基于梯度的优化器(Adam/GD)表现优异;但在2D导航任务中,梯度法易陷入局部极小值,基于采样的交叉熵方法(CEM)凭借探索能力完胜;新引入的Nevergrad规划器在无需调参的情况下展现了与CEM相当的实力,尤其适合跨任务迁移[17][19] - 关键因素贡献度: - 引入机器人内部状态信息(本体感受)能一致性地提高规划成功率,例如在Metaworld任务中减少机械臂在目标点附近的震荡[20] - DINO系列编码器在所有任务中均优于V-JEPA等视频编码器,尤其在需要精确感知物体位置的操纵和导航任务中,在视觉复杂度更高的真实数据(DROID)中,DINOv3的优势进一步扩大[23] - 动作调节技术中,AdaLN在平均性能上表现最强且计算效率更高[23] - 模型规模的影响取决于任务复杂度:在简单模拟环境中,增大模型规模(从ViT-S到ViT-L)可能因嵌入空间过于复杂而导致规划效率下降;但在复杂的现实数据(DROID)中,大容量编码器和更深的预测器则带来明确的正收益[25] - 在训练中加入多步展开损失(如2步)能显著改善预测器的长时稳定性,对于最复杂的DROID任务,最佳展开步数甚至需要达到6步[25] - 训练上下文长度存在权衡:至少需要2帧上下文来推断速度信息,但盲目增加上下文长度(如W > 5)反而有害[27] 提出的最优配置 - 针对不同任务复杂度提出了最优配置:在模拟器中使用ViT-S编码器配以AdaLN动作调节;在真实复杂场景(如DROID)中使用DINOv3 ViT-L编码器配以12层深度的预测器[26] - 在与DINO-WM和V-JEPA-2-AC等模型的直接较量中,该研究提出的模型在几乎所有维度上均取得了领先[28]
LeCun在Meta还有论文:JEPA物理规划的「终极指南」
机器之心·2026-01-03 12:13