突破算力瓶颈！港大俞益洲团队发布首篇「高效视频世界模型」全面综述

文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进，被视为通向通用人工智能（AGI）的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器，面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战，核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发，综述如何通过提升效率将视频生成器转化为实用的世界模型，梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模，是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度，涵盖了四大方向的研究[10] - 方向包括：扩散模型蒸馏，可将采样步数压缩至几步甚至单步；自回归与混合方法，旨在实现长周期推理与高保真度；层次化与VAE设计，通过级联生成或隐空间压缩降低成本；长上下文与记忆机制，以维持长周期的物理与逻辑一致性[12] - 方向还包括：高效注意力机制，利用稀疏注意力、窗口注意力、线性注意力或状态空间模型（如Mamba）替代昂贵的全局注意力；外推与RoPE技术，通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署，总结了四类关键的推理优化策略[11] - 策略包括：并行化，如分布式推理（空间、序列及流水线并行）；缓存机制，利用扩散模型相邻去噪步之间的时空冗余进行特征复用；剪枝，包含token级合并/丢弃及网络架构（通道、层级别）剪枝；量化，以8bit、4bit部署，涵盖从注意力机制量化到训练后量化与量化感知训练，以及时间维度的动态量化策略[12] 赋能应用：自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - 数据合成：用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据，为感知和规划模型提供训练素材，代表工作如GAIA系列、MagicDrive-V2[13] - 闭环交互模拟：将世界模型作为虚拟考场，让AI系统在其中不断试驾、学习，形成“生成—评估—重训”的闭环，例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - 生成式规划：模型通过“想象”多条未来轨迹并选择最优路径来指导执行，使自动驾驶系统具备前瞻性规划能力，例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用：具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题，扮演三重角色[15] - 数据引擎：例如GigaWorld-0通过文本引导真实视频编辑扩充数据，DreamGen用世界模型的“想象”生成轨迹级监督信号，GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - 交互式模拟器：机器人可在世界模型生成的虚拟环境中安全试错，例如Ctrl-World、DreamDojo[16] - 生成式策略学习：例如GR-1在大规模视频上预训练后迁移到机器人操作，Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征，仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用：游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境，是视频世界模型的理想试验田[17] - 具体应用包括：GameGen-X将键盘鼠标操作注入生成过程；Matrix-Game 2.0在GTA5和虚幻引擎数据上训练，实现了约25 FPS的交互生成和分钟级长序列滚动推演；DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上，WorldPlay主打高分辨率实时生成，Yume1.5通过上下文压缩和蒸馏降低长序列延迟，开源项目LingBot-World将分层语义数据引擎与多阶段训练结合，追求低延迟交互与长期记忆的统一[17]