五大门派“围攻”大模型

文章核心观点 - 世界模型被视为继大语言模型之后AI发展的关键新方向，旨在解决AI对物理世界理解与交互的瓶颈，近期获得巨额融资关注，例如杨立昆的AMI和李飞飞的World Labs均获得约10亿美元融资[4] - 当前世界模型的研究呈现多元化技术路线，主要可分为“五大门派”：JEPA派、空间智能派、学习型仿真派、基础设施派（英伟达）以及主动推断派，它们从不同维度探索如何让AI理解并模拟物理世界[6][52] - 世界模型的兴起源于大语言模型在物理理解、推理能力及多模态交互方面的固有局限，以及具身智能、机器人、自动驾驶等领域对AI与物理世界交互的迫切需求[53] - 长期来看，不同技术路线可能走向融合，而非单一胜出，共同构成实现更高级智能的拼图[52][54] JEPA派：杨立昆的“抽象哲学” - 核心思想是联合嵌入预测架构，让AI在抽象的“表征空间”里学习世界运行规律，而非死记硬背像素或单词细节，旨在实现高效的因果推理[8][9][10] - 代表模型V-JEPA 2拥有12亿参数，基于100万小时无标签视频预训练，仅需62小时机器人数据就能实现零样本动作规划，在陌生环境处理陌生物体成功率达65%-80%，数据效率远超传统方法[12][13] - 杨立昆创立的AMI公司已获得超10.3亿美元种子轮融资，创下欧洲AI公司纪录，但商业化产品可能需要数年时间才能面世[4][15] 空间智能派：李飞飞的“建筑师”路线 - 核心聚焦于“空间重建”，追求对三维世界的显式理解，包括几何结构、深度和物体相对位置，与JEPA派关注时间预测形成路线分歧[16][17][19] - 首款产品Marble于2025年11月发布，能根据文字、图片、视频或草图生成可编辑、可导航、可导出的3D场景，并保持空间一致性，已应用于影视和游戏开发[20][22][24] - World Labs在2026年2月完成10亿美元融资，投资方包括英伟达、AMD等，其团队在3D重建领域拥有深厚背景，但当前产品在物理动态理解和长时间连贯性方面存在局限[23][24] 学习型仿真派：DeepMind的“造梦师”路线 - 核心是生成足够真实且可实时交互的虚拟环境，让AI在其中训练，代表作品Genie 3能根据文字生成720p、24fps的3D环境，并具备对象持久性[26] - 配套框架DreamerV4于2025年10月发表，能完全在虚拟“想象”中学习，仅用极少数据（约为同类模型的1%）就在《我的世界》中完成复杂任务（如挖到钻石需超两万次操作）[28] - 该路线的核心假设与风险在于：像素级生成的环境若足够真实多样，在其中训练的智能体或能泛化至现实世界，但其物理模拟精确度和持久性（仅几分钟）仍不及传统游戏引擎[27][28][31] 基础设施派：英伟达的“卖水卖铲”策略 - 英伟达通过Cosmos平台为世界模型训练提供全栈工具，包括高效数据处理管线Cosmos Curator（14天处理2000万小时视频，快于传统CPU方案的3年以上）、高压缩率视觉Tokenizer以及多种预训练模型家族[32][34] - 该平台采用免费开放软件策略以锁定硬件生态，推动开发者使用其H系列、Jetson平台及CUDA生态，目前已被小鹏（自动驾驶仿真）、Figure AI等公司采用[36] - 英伟达将世界基础模型类比为大语言模型，押注该赛道将催生巨大需求，并确保自身作为核心基础设施供应商的地位[37] 主动推断派：来自神经科学的“异端”路线 - 代表公司Verses由神经科学家卡尔·弗里斯顿领导，其理论基于“自由能原理”，认为智能体行为旨在减少预测与现实间的偏差（“减少意外”），而非传统强化学习的“奖励最大化”[39][41][42] - 其AXIOM框架采用对象中心化建模和贝叶斯推理，更接近人类认知结构，无需预训练即可实时适应新情况，在雅达利游戏基准测试中，以更少训练数据和1/8的步数超越DeepMind的DreamerV3[45][46][47][49] - 尽管该路线生态兼容性差且短期难成主流，但其更接近生物智能原理，若世界模型需借鉴生物智能，该派别可能后来居上，其商业化产品Genius瞄准金融、机器人等领域[49][50]