文章核心观点 - 世界模型被视为继大语言模型之后AI发展的关键新方向,旨在解决AI对物理世界理解与交互的瓶颈,近期获得巨额融资关注,例如杨立昆的AMI和李飞飞的World Labs均获得约10亿美元融资[4] - 当前世界模型的研究呈现多元化技术路线,主要可分为“五大门派”:JEPA派、空间智能派、学习型仿真派、基础设施派(英伟达)以及主动推断派,它们从不同维度探索如何让AI理解并模拟物理世界[6][52] - 世界模型的兴起源于大语言模型在物理理解、推理能力及多模态交互方面的固有局限,以及具身智能、机器人、自动驾驶等领域对AI与物理世界交互的迫切需求[53] - 长期来看,不同技术路线可能走向融合,而非单一胜出,共同构成实现更高级智能的拼图[52][54] JEPA派:杨立昆的“抽象哲学” - 核心思想是联合嵌入预测架构,让AI在抽象的“表征空间”里学习世界运行规律,而非死记硬背像素或单词细节,旨在实现高效的因果推理[8][9][10] - 代表模型V-JEPA 2拥有12亿参数,基于100万小时无标签视频预训练,仅需62小时机器人数据就能实现零样本动作规划,在陌生环境处理陌生物体成功率达65%-80%,数据效率远超传统方法[12][13] - 杨立昆创立的AMI公司已获得超10.3亿美元种子轮融资,创下欧洲AI公司纪录,但商业化产品可能需要数年时间才能面世[4][15] 空间智能派:李飞飞的“建筑师”路线 - 核心聚焦于“空间重建”,追求对三维世界的显式理解,包括几何结构、深度和物体相对位置,与JEPA派关注时间预测形成路线分歧[16][17][19] - 首款产品Marble于2025年11月发布,能根据文字、图片、视频或草图生成可编辑、可导航、可导出的3D场景,并保持空间一致性,已应用于影视和游戏开发[20][22][24] - World Labs在2026年2月完成10亿美元融资,投资方包括英伟达、AMD等,其团队在3D重建领域拥有深厚背景,但当前产品在物理动态理解和长时间连贯性方面存在局限[23][24] 学习型仿真派:DeepMind的“造梦师”路线 - 核心是生成足够真实且可实时交互的虚拟环境,让AI在其中训练,代表作品Genie 3能根据文字生成720p、24fps的3D环境,并具备对象持久性[26] - 配套框架DreamerV4于2025年10月发表,能完全在虚拟“想象”中学习,仅用极少数据(约为同类模型的1%)就在《我的世界》中完成复杂任务(如挖到钻石需超两万次操作)[28] - 该路线的核心假设与风险在于:像素级生成的环境若足够真实多样,在其中训练的智能体或能泛化至现实世界,但其物理模拟精确度和持久性(仅几分钟)仍不及传统游戏引擎[27][28][31] 基础设施派:英伟达的“卖水卖铲”策略 - 英伟达通过Cosmos平台为世界模型训练提供全栈工具,包括高效数据处理管线Cosmos Curator(14天处理2000万小时视频,快于传统CPU方案的3年以上)、高压缩率视觉Tokenizer以及多种预训练模型家族[32][34] - 该平台采用免费开放软件策略以锁定硬件生态,推动开发者使用其H系列、Jetson平台及CUDA生态,目前已被小鹏(自动驾驶仿真)、Figure AI等公司采用[36] - 英伟达将世界基础模型类比为大语言模型,押注该赛道将催生巨大需求,并确保自身作为核心基础设施供应商的地位[37] 主动推断派:来自神经科学的“异端”路线 - 代表公司Verses由神经科学家卡尔·弗里斯顿领导,其理论基于“自由能原理”,认为智能体行为旨在减少预测与现实间的偏差(“减少意外”),而非传统强化学习的“奖励最大化”[39][41][42] - 其AXIOM框架采用对象中心化建模和贝叶斯推理,更接近人类认知结构,无需预训练即可实时适应新情况,在雅达利游戏基准测试中,以更少训练数据和1/8的步数超越DeepMind的DreamerV3[45][46][47][49] - 尽管该路线生态兼容性差且短期难成主流,但其更接近生物智能原理,若世界模型需借鉴生物智能,该派别可能后来居上,其商业化产品Genius瞄准金融、机器人等领域[49][50]
五大门派“围攻”大模型