行业技术瓶颈 - 当前高质量AI视频生成模型普遍存在时长限制,通常只能生成上限约15秒的视频,且提高清晰度会进一步缩短时长[1] - 技术瓶颈在于长视频在模型内部会产生海量数据,一段60秒、480p、24帧/秒的视频会被拆解成超过50万个潜在token[2] - 模型为保持剧情连贯与画面一致,需保存长上下文记忆,这导致算力需求爆炸,普通显卡无法承受[3] - 这是自回归视频生成模型的核心矛盾:上下文越长画面越连贯,但计算成本也越高[4] - 现有妥协方案包括使用滑动窗口切掉历史以换取可运行算力,或对视频进行激进压缩以牺牲清晰度和细节[5],但这些方法往往会最先丢失决定画面真实感与一致性的高频细节[6] 创新解决方案 - 斯坦福大学张吕敏团队提出了一种专为长视频设计的记忆压缩系统新思路,旨在压缩的同时尽可能保留精细视觉信息[6] - 研究核心是提出一种神经网络结构,用于将长视频压缩为短上下文,并设计了一种显式的预训练目标,使模型能够在任意时间位置保留单帧中的高频细节信息[7] - 基线模型可以将一段20秒的视频压缩为约5k长度的上下文表示,同时支持从中随机检索单帧,并在感知质量上保持良好的外观保真度[8] - 该预训练模型可直接微调为自回归视频模型的记忆编码器,从而以较低的上下文成本实现长历史记忆建模,且仅带来相对较小的保真度损失[8] 技术架构与训练方法 - 研究采用两阶段策略:首先预训练一个专用的记忆压缩模型,目标是在任意时间位置上尽可能保留高保真帧级细节信息[11] - 预训练目标通过对从压缩历史中随机采样的帧最小化其特征距离来实现,确保模型在整个序列范围内都能稳健地编码细节信息[12] - 网络结构采用轻量级双路径架构:模型同时处理低分辨率视频流和高分辨率残差信息流,并通过将高分辨率特征直接注入Diffusion Transformer的内部通道,绕过传统VAE所带来的信息瓶颈,以提升细节保真度[12] - 核心创新在于预训练目标设计:模型学习将长视频历史H压缩为一个紧凑的上下文表示,同时保持对任意时间位置帧进行重建的能力[17] - 在训练中,模型从历史序列中随机选择一组帧索引Ω并掩蔽其余帧,必须仅依赖压缩后的表示来重建这些被选中的帧,这种随机化选择机制防止模型投机取巧,迫使其学习在整个时间序列范围内持续保留细节信息的表示方式[17][21] 模型微调与系统构建 - 借助预训练完成的记忆压缩模型,可通过对视频扩散模型(如WAN,结合LoRA微调)以及该压缩模型作为历史记忆编码器进行联合微调,从而构建一个自回归视频生成系统[26] - 最终得到的视频生成模型具备超长历史窗口(例如超过20秒)、极短的历史上下文长度(例如约5k),并且对帧检索质量进行了显式优化[27] 实验设置与数据 - 实验使用8 × H100 GPU集群进行预训练,并使用1 × H100s或A100s进行LoRAs微调,所有实验均在HunyuanVideo和Wan系列的基础模型上进行[30] - 数据集由来自多个网站的约500万互联网视频组成,其中约一半是竖屏短视频,其余为普通横屏视频[30] - 测试集包括由Gemini-2.5-pro编写的1000个故事板提示和4096个未在训练数据集中出现过的视频[30] 评估结果 - 定性评估表明,模型能够处理多种多样的提示和故事板,同时在角色、场景、物体和情节线方面保持一致性[34] - 定量评估引入了VBench、VBench2等平台的多个视频评估指标,本文提出的方法在多个一致性指标上表现出合理的分数[34][36] - 在视频内容一致性定量评测中,本文提出的方法(4×4×2)在衣物一致性(Cloth)上得分为96.12,身份一致性(Identity)为70.73,实例一致性(Instance)为89.89,ELO评分为1216[35] - 在更高压缩设置(2×2×2)下,衣物一致性得分提升至96.71,身份一致性为72.12,实例一致性为90.27,ELO评分为1218[35] - 用户研究和ELO分数验证了提出的架构在压缩和质量之间实现了有效的权衡[36] 消融实验与性能 - 消融实验的定量结果表明,本文方法在PSNR、SSIM等指标上取得了相对更优的性能[37] - 具体而言,提出的方法(4×4×2)PSNR为17.41,SSIM为0.596,LPIPS为0.171;在更高压缩率(2×2×1)下,PSNR达到20.19,SSIM为0.705,LPIPS为0.121[37] - 即便在4×4×2的较高压缩率条件下,该方法仍然能够有效保持原始图像结构[37]
ControlNet作者张吕敏最新论文:长视频也能实现超短上下文
机器之心·2026-01-03 15:00