全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心·2026-02-07 12:09

文章核心观点 - 视频生成与世界模型是人工智能领域的热点,其目标是从生成逼真短片发展为可用于推理、规划与控制的通用世界模拟器,并与具身智能、自动驾驶等前沿场景深度交织,被视为通往通用人工智能的重要路径[2] - 当前研究存在定义模糊、分类重叠等问题,限制了技术标准化发展,为此快手可灵团队与香港科技大学(广州)团队联合发表了一篇系统综述,旨在弥合当代“无状态”视频架构与经典“以状态为中心”世界模型理论之间的鸿沟[2][3] - 该综述首次提出了以“状态构建”与“动态建模”为双支柱的全新分类体系,并倡导将评估标准从单纯的“视觉保真度”转向“功能性基准”,为视频生成演进为鲁棒的通用世界模拟器提供了清晰的路线图[3] 核心理论贡献 - 提出了全链路视角,涵盖从底层理论定义、中层架构设计到上层功能性评估的全生命周期分析,确保对视频世界模型全方位的理解[8] - 首次将当代“无状态”的视频扩散架构与经典的基于模型强化学习、控制理论进行深度映射,为世界模型找到了坚实的理论根基[8] - 明确了“持久性”与“因果性”是迈向通用世界模拟器的两大核心关隘,为业界从被动的“像素预测”转向具备闭环交互与因果干预能力的模拟器提供了清晰的路径参考[8] - 深度梳理了2024至2025年间涌现的视频生成最新工作,反映了当前技术从视觉保真度向物理一致性转化的前沿趋势[8] 世界模型的三大基石与核心操作 - 观察:环境的原始感官数据,在视频模型中表现为高维的像素级输入,提供世界的局部、间接视图[8] - 状态:模型通过提炼历史观察,过滤噪声,形成的足以解释当前世界的“内部表示”[8] - 动态变化:预判未来的“引擎”,它刻画了状态随时间演变的规律,让模型具备在脑海中“预演”物理法则的能力[9] - 状态估计:把高维、连续的观测序列压缩成一个紧凑的状态表示,用来刻画环境在当前时刻的关键状态[13] - 状态转移:刻画环境在动作作用下的因果演化,是世界模型的“内部模拟引擎”,用于预测未来状态或观测[13] 世界模型的学习方式 - 闭环学习:世界模型与策略模型联合训练,世界模型的参数更新直接受策略目标影响,可进一步分为顺序组合架构与统一架构[14] - 开环学习:将世界模型视为通过大规模被动数据预训练得到的独立模拟器;策略模型可在自身优化中调用世界模型进行“想象/规划”,但世界模型不接收来自策略奖励信号或损失函数的梯度更新[14] 支柱一:状态构建 - 现代视频生成模型在状态层面存在关键差距:多数模型缺乏显式压缩状态,而以观测序列充当隐式状态,随时间增长带来计算/记忆负担并削弱长程持久性[12] - 隐式状态范式:不构建固定大小的显式状态变量,而是通过外部记忆机制管理历史观测,动态提炼出“工作记忆”来支撑生成所需的长期一致性与上下文连贯[16] - 显式状态范式:将状态构建内化为模型自身的压缩过程,把历史上下文持续蒸馏进一个全局更新的潜在变量中,使其成为对视频演化过程的固定维度、可递推的数学摘要[17] - 隐式状态的管理机制主要包括压缩、检索和巩固三种核心操作,以处理长上下文信息[18] - 显式状态根据其与生成骨干的融合程度,可分为耦合状态与解耦状态[19] - 隐式状态与显式状态的系统性对比:隐式状态机制依赖外部管理,上下文选择多为启发式学习或基于规则,持久性受限于窗口,计算复杂度随历史长度线性或二次增长;显式状态机制依赖内部递归,上下文选择基于学习的物理/转移规律,支持全局连续性和无限时长,计算复杂度为常数[23] - 总体取舍是:隐式状态目前更稳妥地支持高保真视频生成,而显式状态更像通往高效、可长期推理的自主智能体与世界模拟的前沿方向[22] 支柱二:动态建模 - 现代视频生成模型在动态层面存在关键差距:标准模型常以双向注意力“一次性渲染”固定时长片段,缺少显式时间因果推进[12] - 增强因果推理能力的两条主要路径:一是因果架构重构,从模型结构与训练目标入手,把生成过程从“一次性渲染”改造成“按时间顺序预测”;二是因果知识集成,引入具备更强推理能力的多模态大模型作为“规划者/导演”,先在高层完成规划,再由视频生成模型负责高保真“渲染”[25] 评估标准的演进 - 主张将评估从“视觉美感”推进到“功能基准”,并提出三条核心评价轴:质量、持久性和因果性[26] - 质量:关注基础视觉保真度、短程时序相干性以及文本/条件对齐能力,代表性工具如VBench/VBench++等[44] - 持久性:关注长时程生成的稳定性与一致性,并通过“场景重访”等记忆任务检验模型能力,相关评测包括WCS以及基于rFID的重建一致性测试等[44] - 因果性:重点检验模型是否真正内化物理与逻辑规律,评测包括时间顺序与物理有效性,以及反事实干预下的响应是否合理,并进一步延伸到agent-in-the-loop的任务成功率与规划表现[44] 未来研究方向 - 视频生成迈向世界模拟的关键在于补齐两项核心能力:持久性与因果性[27] - 持久性方面:隐式状态需要从固定窗口等启发式记忆升级为可学习、可动态筛选的信息管理机制;显式状态则要在压缩效率与细节保真之间找到更好的平衡[27] - 因果性方面:一条路线是通过架构与数据设计提升因果推断能力,另一条路线是引入理解模型的推理先验来约束生成,但如何有效对齐生成与理解仍是核心挑战[27]

全新视角看世界模型:从视频生成迈向通用世界模拟器 - Reportify