Workflow
LeWM
icon
搜索文档
LeCun的世界模型单GPU就能跑了
量子位· 2026-03-24 12:59
模型概述与核心创新 - 文章介绍了一种名为LeWorldModel (LeWM)的新型世界模型,其核心是基于JEPA架构的极简训练方案,能够直接从像素输入预测未来,适用于机器人与智能体的规划与控制 [1][2] - 该模型的关键创新在于将JEPA架构简化到本质,仅使用编码器与预测器两个核心组件,通过端到端训练实现稳定且高效的学习 [6][7][8] - 最核心的技术突破是采用了一种极简的损失函数设计,仅包含预测损失和SIGReg正则损失两项,其中正则化权重λ是唯一需要调优的超参数,这极大地简化了训练流程并提升了稳定性 [11][12][13] 技术架构与工作原理 - LeWM的架构由编码器和预测器组成:编码器将画面压缩为潜在特征;预测器根据当前特征和动作预测下一时刻的特征 [7][8] - 模型通过两个损失函数进行训练:预测损失(使用MSE均方误差)使模型学习世界动态规律;SIGReg正则损失强制特征向量服从标准高斯分布,以防止模型崩溃 [11][12] - 该方法通过将观测数据缩小约200倍,实现了高效的未来预测和规划,使基于特征的规划几乎可以实时运行 [20] 性能表现与实验结果 - 在规划速度上,LeWM相比基于大模型的方案(DINO-WM)快48倍,完整规划仅需不到1秒,而DINO-WM需要约47秒 [2][19] - 模型参数量仅为1500万,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,几小时即可完成训练 [9] - 在多个2D/3D机器人控制任务测试中,LeWM表现优异:在Push-T(推箱子)任务中成功率高达96%,比PLDM方法高18%,甚至超过了带体感输入的DINO-WM;在其他任务如Reacher(机械臂)和OGBench-Cube(3D抓取)中,性能也与DINO-WM接近或相当,并优于端到端基线PLDM [14][15][17] - 模型在潜在特征中学习了位置、角度等物理信息,并能识别违反物理规律的事件(如物体瞬移),表现出对物理世界的理解 [9][25][26] 研究团队与背景 - 该研究的一作是Lucas Maes,加拿大AI研究院Mila的三年级博士生,导师是Damien Scieur,目前是布朗大学的访问研究员 [29][30] - 研究团队成员包括纽约大学柯朗数学研究所的博士后研究员Quentin Le Lidec,其与Yann LeCun合作研究机器人世界模型 [33] - 团队成员还包括三星研究员Damien Scieur(主要方向为优化算法)和布朗大学计算机科学助理教授Randall Balestriero [36][37]