LeWM - 财报，业绩电话会，研报，新闻

LeWM

搜索文档

量子位· 2026-03-24 12:59

模型概述与核心创新 - 文章介绍了一种名为LeWorldModel (LeWM)的新型世界模型，其核心是基于JEPA架构的极简训练方案，能够直接从像素输入预测未来，适用于机器人与智能体的规划与控制 [1][2] - 该模型的关键创新在于将JEPA架构简化到本质，仅使用编码器与预测器两个核心组件，通过端到端训练实现稳定且高效的学习 [6][7][8] - 最核心的技术突破是采用了一种极简的损失函数设计，仅包含预测损失和SIGReg正则损失两项，其中正则化权重λ是唯一需要调优的超参数，这极大地简化了训练流程并提升了稳定性 [11][12][13] 技术架构与工作原理 - LeWM的架构由编码器和预测器组成：编码器将画面压缩为潜在特征；预测器根据当前特征和动作预测下一时刻的特征 [7][8] - 模型通过两个损失函数进行训练：预测损失（使用MSE均方误差）使模型学习世界动态规律；SIGReg正则损失强制特征向量服从标准高斯分布，以防止模型崩溃 [11][12] - 该方法通过将观测数据缩小约200倍，实现了高效的未来预测和规划，使基于特征的规划几乎可以实时运行 [20] 性能表现与实验结果 - 在规划速度上，LeWM相比基于大模型的方案（DINO-WM）快48倍，完整规划仅需不到1秒，而DINO-WM需要约47秒 [2][19] - 模型参数量仅为1500万，所有训练与规划实验均在单张NVIDIA L40S显卡上完成，几小时即可完成训练 [9] - 在多个2D/3D机器人控制任务测试中，LeWM表现优异：在Push-T（推箱子）任务中成功率高达96%，比PLDM方法高18%，甚至超过了带体感输入的DINO-WM；在其他任务如Reacher（机械臂）和OGBench-Cube（3D抓取）中，性能也与DINO-WM接近或相当，并优于端到端基线PLDM [14][15][17] - 模型在潜在特征中学习了位置、角度等物理信息，并能识别违反物理规律的事件（如物体瞬移），表现出对物理世界的理解 [9][25][26] 研究团队与背景 - 该研究的一作是Lucas Maes，加拿大AI研究院Mila的三年级博士生，导师是Damien Scieur，目前是布朗大学的访问研究员 [29][30] - 研究团队成员包括纽约大学柯朗数学研究所的博士后研究员Quentin Le Lidec，其与Yann LeCun合作研究机器人世界模型 [33] - 团队成员还包括三星研究员Damien Scieur（主要方向为优化算法）和布朗大学计算机科学助理教授Randall Balestriero [36][37]