文章核心观点 - AI领域三大力量(李飞飞的World Labs、LeCun、谷歌DeepMind)正从三种截然不同的技术路线进军“世界模型”,这标志着AGI的发展路径在此交汇[1][2][3] 李飞飞World Labs的Marble模型 - 公司推出首款商用世界模型Marble,其核心是生成持久、可下载的3D环境,显著减少场景变形和细节不一致的问题[5][6] - 模型能将生成的世界导出为高斯斑点、Mesh网格或直接导出视频,并内置原生AI世界编辑器Chisel,用户通过一句提示即可自由改造世界[6][7] - 该模型为游戏或VR开发者提供了“一句提示→直接生成3D世界→一键导出到Unity”的实用工作链路,商业化潜力显著[9][22] - 有行业观点认为,Marble更像是一个3D渲染模型或3D高斯生成流水线,它捕捉的是世界的视觉表面而非内在的物理规律,因此可能不适用于机器人训练[10][11][12][18][20][21] LeCun的JEPA模型 - LeCun的“世界模型”根植于控制理论和认知科学,其任务不是渲染精美像素,而是让机器人能提前预判世界变化,更像是在训练机器人的“大脑”[24][25][26][28] - 该模型专注于捕捉用于AI决策的世界状态抽象表征,无需浪费算力生成像素,优势在于对世界本质的理解,是机器人理想的训练基地[27][29][51] - 与Marble相比,JEPA是一个高度抽象的后端预测系统,没有可供人欣赏的画面,但更贴近AI的思维方式[30][50] 谷歌DeepMind的Genie 3模型 - 谷歌DeepMind推出的Genie 3是一个可交互的视频环境生成模型,用户可通过一句Prompt在其中自由探索数分钟[32][33] - 该模型首次在同类模型中解决了长时一致性问题,并支持触发如“开始下雨”等世界事件,过程类似由模型驱动的电子游戏[35][36] - 行业分析认为,Genie 3的核心仍是视频逻辑,可被视为“世界模型式视频生成器”或“模拟器”,虽能让世界动起来,但未能完全理解画面背后的物理规律[37][38][39][47] - 其画面质量和分辨率有限,难以与Marble的高精度3D资产相比,但可作为智能体(如SIMA 2)的“虚拟健身房”进行训练[40][41][48] 世界模型的三种技术范式 - 世界模型即界面:以Marble为代表,直接从文字或二维素材生成可编辑、可分享的三维环境,世界是呈现给人的可视空间[43][44][45] - 世界模型即模拟器:以Genie 3为代表,生成连续、可控制的视频式世界,作为智能体反复试错的虚拟环境[46][47][48] - 世界模型即认知框架:以JEPA为代表,以高度抽象的潜在变量和状态转移函数呈现世界,是机器人完美的训练基地[49][50][51] - 三者可构成“世界模型金字塔”:从底部的Marble(对人类最真实)到顶部的JEPA(对AI最易理解),越往上越抽象,越适合机器人训练与推理[53][54]
李飞飞和LeCun的世界模型之争