李飞飞和LeCun的世界模型之争

文章核心观点 - AI领域三大力量（李飞飞的World Labs、LeCun、谷歌DeepMind）正从三种截然不同的技术路线进军“世界模型”，这标志着AGI的发展路径在此交汇[1][2][3] 李飞飞World Labs的Marble模型 - 公司推出首款商用世界模型Marble，其核心是生成持久、可下载的3D环境，显著减少场景变形和细节不一致的问题[5][6] - 模型能将生成的世界导出为高斯斑点、Mesh网格或直接导出视频，并内置原生AI世界编辑器Chisel，用户通过一句提示即可自由改造世界[6][7] - 该模型为游戏或VR开发者提供了“一句提示→直接生成3D世界→一键导出到Unity”的实用工作链路，商业化潜力显著[9][22] - 有行业观点认为，Marble更像是一个3D渲染模型或3D高斯生成流水线，它捕捉的是世界的视觉表面而非内在的物理规律，因此可能不适用于机器人训练[10][11][12][18][20][21] LeCun的JEPA模型 - LeCun的“世界模型”根植于控制理论和认知科学，其任务不是渲染精美像素，而是让机器人能提前预判世界变化，更像是在训练机器人的“大脑”[24][25][26][28] - 该模型专注于捕捉用于AI决策的世界状态抽象表征，无需浪费算力生成像素，优势在于对世界本质的理解，是机器人理想的训练基地[27][29][51] - 与Marble相比，JEPA是一个高度抽象的后端预测系统，没有可供人欣赏的画面，但更贴近AI的思维方式[30][50] 谷歌DeepMind的Genie 3模型 - 谷歌DeepMind推出的Genie 3是一个可交互的视频环境生成模型，用户可通过一句Prompt在其中自由探索数分钟[32][33] - 该模型首次在同类模型中解决了长时一致性问题，并支持触发如“开始下雨”等世界事件，过程类似由模型驱动的电子游戏[35][36] - 行业分析认为，Genie 3的核心仍是视频逻辑，可被视为“世界模型式视频生成器”或“模拟器”，虽能让世界动起来，但未能完全理解画面背后的物理规律[37][38][39][47] - 其画面质量和分辨率有限，难以与Marble的高精度3D资产相比，但可作为智能体（如SIMA 2）的“虚拟健身房”进行训练[40][41][48] 世界模型的三种技术范式 - 世界模型即界面：以Marble为代表，直接从文字或二维素材生成可编辑、可分享的三维环境，世界是呈现给人的可视空间[43][44][45] - 世界模型即模拟器：以Genie 3为代表，生成连续、可控制的视频式世界，作为智能体反复试错的虚拟环境[46][47][48] - 世界模型即认知框架：以JEPA为代表，以高度抽象的潜在变量和状态转移函数呈现世界，是机器人完美的训练基地[49][50][51] - 三者可构成“世界模型金字塔”：从底部的Marble（对人类最真实）到顶部的JEPA（对AI最易理解），越往上越抽象，越适合机器人训练与推理[53][54]