突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心·2026-04-24 07:37

文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进,被视为通向通用人工智能(AGI)的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器,面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战,核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发,综述如何通过提升效率将视频生成器转化为实用的世界模型,梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模,是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度,涵盖了四大方向的研究[10] - 方向包括:扩散模型蒸馏,可将采样步数压缩至几步甚至单步;自回归与混合方法,旨在实现长周期推理与高保真度;层次化与VAE设计,通过级联生成或隐空间压缩降低成本;长上下文与记忆机制,以维持长周期的物理与逻辑一致性[12] - 方向还包括:高效注意力机制,利用稀疏注意力、窗口注意力、线性注意力或状态空间模型(如Mamba)替代昂贵的全局注意力;外推与RoPE技术,通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署,总结了四类关键的推理优化策略[11] - 策略包括:并行化,如分布式推理(空间、序列及流水线并行);缓存机制,利用扩散模型相邻去噪步之间的时空冗余进行特征复用;剪枝,包含token级合并/丢弃及网络架构(通道、层级别)剪枝;量化,以8bit、4bit部署,涵盖从注意力机制量化到训练后量化与量化感知训练,以及时间维度的动态量化策略[12] 赋能应用:自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - 数据合成:用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据,为感知和规划模型提供训练素材,代表工作如GAIA系列、MagicDrive-V2[13] - 闭环交互模拟:将世界模型作为虚拟考场,让AI系统在其中不断试驾、学习,形成“生成—评估—重训”的闭环,例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - 生成式规划:模型通过“想象”多条未来轨迹并选择最优路径来指导执行,使自动驾驶系统具备前瞻性规划能力,例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用:具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题,扮演三重角色[15] - 数据引擎:例如GigaWorld-0通过文本引导真实视频编辑扩充数据,DreamGen用世界模型的“想象”生成轨迹级监督信号,GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - 交互式模拟器:机器人可在世界模型生成的虚拟环境中安全试错,例如Ctrl-World、DreamDojo[16] - 生成式策略学习:例如GR-1在大规模视频上预训练后迁移到机器人操作,Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征,仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用:游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境,是视频世界模型的理想试验田[17] - 具体应用包括:GameGen-X将键盘鼠标操作注入生成过程;Matrix-Game 2.0在GTA5和虚幻引擎数据上训练,实现了约25 FPS的交互生成和分钟级长序列滚动推演;DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上,WorldPlay主打高分辨率实时生成,Yume1.5通过上下文压缩和蒸馏降低长序列延迟,开源项目LingBot-World将分层语义数据引擎与多阶段训练结合,追求低延迟交互与长期记忆的统一[17]

突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述 - Reportify