2026 将近，世界模型到底更「世界」了吗？

文章核心观点 - 近期Runway发布新产品，将视频生成推向可交互的“世界模拟”，引发了关于“世界模型”本质的讨论：它究竟是面向创作的界面、用于训练的模拟器，还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变，从强化学习语境中的内部环境模型，扩展到更通用的世界演化建模，并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂，主要围绕“如何建模”展开技术路线之争，例如OpenAI的Sora强调像素级模拟，而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型，但其动机各异，有的为补充数据引擎，有的为搭建时空认知新框架，融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模，世界模型这两年经历了怎样的转变？ - 2024年初的强化学习语境：世界模型最初定义相对收敛，被视为智能体的“内部环境模型”，是一个从当前状态和动作预测下一状态的函数，旨在将试错成本转移到内部推演，提高样本效率和规划能力[4][5] - 工程化能力拆解：同一时期，世界模型被定义为三类能力的组合：将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策，Transformer和自监督学习开始被纳入讨论，但整体仍是强化学习的延展[6] - 概念外推与通用化：进入2024年，业内理解开始延伸，将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模，并认为存在“语言生成→图像生成→3D生成→世界生成（同时具备时序与空间序建模）”的趋势链条[6] - 概念边界模糊化：同时，世界模型的概念边界变得更模糊，表征形式（视频序列还是3D表征）、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - 技术路线分化（2024年2月）： - OpenAI的Sora路线：被称为“world simulators”，强调在像素空间中学习现实世界的三维结构与物理规律，并能够模拟世界演化[6] - Meta（LeCun）的V-JEPA路线：强调世界模型不是在像素层面补全，而是在抽象表示空间预测被遮蔽的视频片段，允许丢弃不可预测信息以换取更高训练效率，其训练更强调自监督与未标注数据预训练[6] - 核心争议转移：主题从“要不要做世界模型”转变为“世界模型如何建模”，争议焦点在于应从像素层逐步抽象，还是直接在抽象空间跳过像素细节[7] - 对现有路线的批评：有研究者认为当前路线（如Sora和V-JEPA）只学到了部分物理规律，距离“完整世界模型”还有差距，提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴，并指出Sora的缺陷无法通过扩大训练规模弥补，V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架，世界模型的定义依旧模糊？ - 地位提升至与LLM同级：进入2025年，世界模型被推至与LLM同级的位置，分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型，目标是实现“Physical AI + 超级智能”，部分原因是LLM路线提升放缓[8] - 与LLM及VLA的差异： - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征，用于规划和决策，可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出，当前LLM更像启发式方法拼盘，离真正的世界模型还很远[8] - 与视觉语言动作模型相比，世界模型代表了更底层的认知方式，强调物理规律和空间理解，更适合长期演进[8] - 概念同名但内核分裂：发展至今，世界模型出现了“概念同名但内核分裂”的现象，它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器，或任何能生成可走动3D场景的内容管线[8] - 融资热潮放大歧义：世界模型的融资热潮进一步放大了这种歧义，只要产品贴上世界模型标签，往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - 技术路线三分法：有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数，国内外各厂商如何布局世界模型？ - 布局动机各异：大厂布局世界模型，动机可能是在补充“数据引擎”，也可能是在搭建“时空认知”的新框架[3]