2026 将近,世界模型到底更「世界」了吗?
机器之心·2025-12-13 10:30

文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - 2024年初的强化学习语境:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - 工程化能力拆解:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - 概念外推与通用化:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - 概念边界模糊化:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - 技术路线分化(2024年2月): - OpenAI的Sora路线:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - Meta(LeCun)的V-JEPA路线:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - 核心争议转移:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - 对现有路线的批评:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - 地位提升至与LLM同级:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - 与LLM及VLA的差异: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - 概念同名但内核分裂:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - 融资热潮放大歧义:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - 技术路线三分法:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - 布局动机各异:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]