Workflow
LongVie 2
icon
搜索文档
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩
机器之心· 2025-12-31 17:31
视频世界模型的技术挑战与现状 - 当前AI生成视频的核心挑战在于如何让生成的视频不仅视觉逼真,更能长时间遵循物理世界的规律,实现结构、行为与物理规律的一致性[2] - 随着生成时长从几秒扩展到几分钟,现有模型普遍面临误差累积与语义漂移问题,导致长视频出现画面退化与逻辑崩坏[2] - 一个理想的视频世界模型应具备三项核心能力:全面可控性、长期视觉保真度以及长程上下文一致性[12] LongVie 2模型框架与核心创新 - 该模型由上海人工智能实验室联合多所高校提出,是一个能够生成长达5分钟高保真、可控视频的世界模型框架[2] - 其核心创新在于设计了一套三阶段递进式训练策略,系统性解决长视频生成的退化问题[8] - 三阶段训练包括:1) 稠密与稀疏多模态控制;2) 退化感知训练;3) 历史上下文建模,旨在从控制、稳定性到时间一致性层层强化模型能力[9][13][14] 三阶段训练策略详解 - **阶段一:多模态控制**:通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束,从源头提升长程可控性[9] - **阶段二:退化感知训练**:在训练阶段主动“制造困难”,通过VAE多次编解码模拟重建误差,以及加噪与去噪构造退化图像,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度[13][17] - **阶段三:历史上下文建模**:在生成过程中显式引入历史片段信息,并通过针对性损失函数约束相邻片段衔接,使跨片段过渡自然顺畅,有效缓解语义断裂与逻辑跳变[14] 模型效果与性能评估 - 与Go-With-The-Flow和Diffusion As Shader等方法对比,LongVie 2在可控性方面表现显著优于现有方法[21] - 消融实验验证了三阶段训练的有效性,完整模型(Base Model + Control Learning + Degradation Adaptation + History Context)在各项指标上达到最佳,例如美学质量(A.Q.)从49.72%提升至58.47%,结构控制(S.C.)从83.56%提升至91.05%,时间一致性指标(D.D.)从15.15%大幅提升至82.59%[26] - 在提出的LongVGenBench基准上,LongVie 2在多项定量指标上达到SOTA水平,并获得最高用户偏好度,其用户主观测评得分(如视觉质量VO为4.40)显著高于其他对比方法[29] 行业评测基准的建立 - 研究提出了LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,旨在推动该方向的系统研究与公平评测[27] - 该基准包含100个时长超过1分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景[28]