自回归视频生成
搜索文档
视频生成一长就漂移竟是前序帧「太干净」惹的祸!研究揭示共享噪声水平才是长视频稳定关键
量子位· 2026-03-17 12:13
自回归视频生成的技术瓶颈与现有方案局限性 - 随着视频生成向长时序演进,自回归扩散模型因支持流式输出而受关注,但其在迈向“无限长”时面临核心痛点:训推不一致导致的误差累积,使生成的视频越往后时序漂移和画面崩坏问题越严重[3] - 为缓解退化问题,现有方法尝试了模拟预测误差、引入First frame sink或Self-rollout等路径,但这些修补方案各有局限性,例如使用frame sink会严重限制视频的场景变化[3] HiAR方法的核心创新与原理 - 研究团队发现,导致时序漂移的根源在于主流做法是等待前一个视频块完全去噪成“干净”画面后再作为条件输入,这种“过于干净”的上下文会使模型将前序块不可避免的微小预测误差当作绝对正确的真实条件,导致误差在自回归过程中被不断传递并成倍放大[4] - HiAR不再串行等待前一个视频块完全生成,而是在每一个去噪步中,对所有视频块进行因果生成,使上下文和当前生成块始终共享相同的噪声水平,这种简单重构大幅减少了块与块之间的误差传递[9] - 该方法基于对双向扩散模型的重新审视,发现所有视频帧共享噪声水平、同时去噪也能保持连续性和一致性,扩散模型往往有从粗到细的生成模式,粗粒度阶段的去噪只需要粗粒度的上下文就足够了,这一规律可迁移到因果自回归扩散模型中[7] - 在训练阶段,为解决模型倾向于生成几乎静止的“低运动幅度”视频的问题,团队引入了前向KL正则化,他们发现当前蒸馏得到的因果模型实际上仍保留了相当不错的双向注意力能力,因此在双向注意力模式下计算前向KL正则损失,有效约束模型保持原视频的动态多样性与合理运动幅度[10] HiAR的性能表现与评估结果 - 在权威的VBench长视频基准测试上,HiAR的Drift Score降至最低的0.257,相比基线方法显著减少了时序漂移,在长时序下保持了极高的画质与语义稳定[13] - 在核心视觉指标上,HiAR取得了最优成绩,其Total分数为0.821,Quality分数为0.846,Semantic分数为0.723,Dynamic分数为0.686[14] - HiAR实现了分钟级的无退化视频生成,在测试中成功实现只训练5秒长度视频的情况下生成了3小时的高质量连续视频[14][15] HiAR的工程优势与效率提升 - 得益于分层去噪架构打破了传统自回归模型“逐块串行”的枷锁,HiAR在4步去噪的设置下解锁了流水线并行推理能力[16] - 在不牺牲任何视频质量的前提下,HiAR实现了约1.8倍的推理加速,吞吐量达到30 fps,单chunk延迟低至0.30秒[16] - 其吞吐量达到30 fps,显著高于对比模型如Wan2.1-1.3B的0.78 fps和MAGI-1-4.5B的0.19 fps,延迟也远低于Wan2.1-1.3B的103秒和MAGI-1-4.5B的282秒[14] 研究意义与未来潜力 - HiAR为自回归长视频生成解决训推不一致问题提供了一种新思路,证明了简单的共享噪声水平就能够有效打破误差累积的魔咒[18] - 团队的方法独立于frame sink以及基于context压缩的方法,具有很大的发展空间[18]
MLSys 2026 | StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」,实现真正可用的生成式直播系统
机器之心· 2026-03-13 18:41
行业技术背景与挑战 - 基于图片扩散模型的AI直播系统(如StreamDiffusion、StreamV2V)存在时间一致性较差的问题,而视频扩散模型因其前后帧依赖关系能提供极佳的时间一致性 [2] - 近期自回归视频生成研究(如CausVid、Self-Forcing)提升了推理速度,使其吞吐量接近“实时”目标,但现有方法主要面向离线生成优化,难以直接适配对延迟和抖动有严格要求的实时直播场景 [2][7] - 实时视频扩散无法仅依赖离线生成范式的延伸,亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构 [7] 现有系统瓶颈分析 - 现有系统面临四大挑战:1)无法满足实时服务级目标(SLO),首帧延迟高且抖动大;2)长时间生成中因误差累积导致时序漂移和风格漂移;3)面对快速动作时出现模糊、重影和画面撕裂;4)难以实现多GPU扩展,通信开销抵消了计算加速 [11] - 性能瓶颈分析表明,在自回归视频生成的低延迟单帧参数下,由于需要加载长序列的KV Cache,系统性能由内存带宽而非算力主导,处于内存带宽受限状态 [13] - 序列并行方法(如Deepspeed-Ulysses、Ring-Attention)在推理中每个DiT Block需执行一次跨设备通信,引入了显著的通信开销,加剧了系统数据传输负担 [13] StreamDiffusionV2 解决方案 - 研究团队提出一种无需训练、面向交互式直播的流式视频生成系统,旨在实现低延迟与高质量生成的平衡 [2] - 算法层面:引入Sink-tokens和滚动KV Cache机制,将早期生成帧的KV保留以指导后续生成,缓解误差累积;采用动作感知的动态加噪机制,根据视频运动强度自适应调整加噪比例以保持一致性或提升质量 [17][18] - 系统层面:采用SLO感知的流水线化批量去噪,将不同噪音程度的帧组成流水线并行处理;实施模型网络层的流水线并行,结合分片批量去噪与异步通信,以缓解流水线气泡,提升整体吞吐量 [17][19] 系统性能与结果 - 该系统已全面开源,在未应用TensorRT或量化的情况下,于双卡RTX 4090设备上能稳定实现16 FPS实时推理 [3] - 在H100上,系统首帧延迟低于0.5秒;在4卡设备上,14B模型实现58.28 FPS,1.3B模型实现64.52 FPS的吞吐量 [3] - 实验结果显示,系统端到端延迟分布紧密、抖动低,达到亚秒级实时应用要求,同时实现了稳定的高质量生成和良好的时间一致性,并对复杂提示词有更好适应 [26][27] 行业意义与未来展望 - StreamDiffusionV2弥合了离线视频扩散与实时直播之间的系统鸿沟,使高质量生成式直播首次具备工程可行性 [29] - 该工作顺应硬件与算法发展趋势:GPU计算能力增长快于显存带宽,且视频生成算法采用更高压缩率,加剧了推理阶段的内存访问压力,使得围绕内存访问与实时约束进行系统级调度设计成为关键能力 [32][33] - 该系统方案提供了一种面向未来实时生成场景的设计思路,以SLO为核心、系统协同驱动的流式推理架构,有望成为下一阶段生成式直播基础设施的重要方向 [34][35]
Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限
机器之心· 2025-10-18 16:30
文章核心观点 - Self-Forcing++技术突破视频生成长度限制,首次实现4分钟15秒高质量长视频生成,无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想,利用教师模型纠错能力,使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型,尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术,在长视频生成后将噪声重新注入已生成序列,保持时间连续性,避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法,将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏,实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存,实现真正的训练-推理对齐,彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制,惩罚光流突变,使视频运动过渡更自然,光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B,在100秒视频生成中文本对齐得分26.04,时序质量90.87,动态程度54.12,视觉稳定性84.22[25][26] - 在50秒视频生成评测中,动态程度指标达到55.36,远超基线模型的31.96-39.15,视觉稳定性达到90.94,显著优于基线模型的40.12-60.41[25] - 随着训练算力增加,视频质量显著提升,训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性,基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成,存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题,可能丢失被遮挡物体状态,且自回归训练成本较高,效率有待提升[33]
快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破
机器之心· 2025-09-13 16:54
文章核心观点 - 快手可灵团队提出MIDAS框架 通过自回归视频生成结合轻量化扩散去噪头 实现多模态条件下实时流畅的数字人视频合成 具备低延迟 多模态控制与长时序一致性三大核心优势[2] - 该系统支持音频 姿态 文本等多种输入信号 通过统一多模态条件投影器编码到共享潜在空间 实现语义和空间一致的数字人生成[5] - 在双人对话 多语言歌唱合成和交互世界建模等任务中表现优异 生成延迟低于500ms 支持长达4分钟的连续生成且质量衰减显著低于基线方法[13][14] 技术架构 - 采用因果潜在预测加扩散渲染设计 嵌套类似大语言模型的自回归架构逐帧预测潜在表示 再由轻量级扩散头进行去噪和高清渲染[7] - 使用高压缩率自编码器DC-AE 压缩比高达64倍 每帧图像最多用60个令牌表示 支持最高384×640分辨率图像重建[8] - 基于Qwen2.5-3B作为自回归主干网络 扩散头采用PixArt-α/mlp结构 支持分块流式生成每块6帧[12] 性能表现 - 端到端生成延迟低于500ms 扩散头仅需4步去噪 在效率与视觉质量间取得最佳平衡[4][14] - 支持双人实时对话交互 生成与语音同步的口型 表情和倾听姿态[13] - 实现中文 日文 英文歌曲的唇形同步 生成视频可达4分钟无显著漂移[13] - 在Minecraft数据集训练后展现出良好场景一致性与记忆能力[13] 数据与训练 - 构建约2万小时大规模多模态对话数据集 涵盖单人 双人对话场景及多语言多风格内容[10] - 引入可控噪声注入训练策略 通过20级噪声桶和对应嵌入缓解自回归模型推理阶段的曝光偏差问题[12] 应用前景 - 为虚拟人直播 元宇宙交互 多模态AI智能体等应用奠定技术基础[16] - 模块化设计允许灵活扩展至更多模态与控制信号[16] - 未来将探索更高分辨率 更复杂交互逻辑下的生成能力 并推进系统在真实产品环境中的部署[17]
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
核心观点 - 微软研究院与北大联合发布新框架Next-Frame Diffusion (NFD),实现每秒超30帧自回归视频生成,同时保持高质量画面 [1][2] - NFD通过帧内并行采样和帧间自回归方式提升生成效率,在NVIDIA A100 GPU上生成《我的世界》视频仅需0.48秒 [2][4] - 该技术可能改变游戏行业交互方式,玩家可直接与模型交互而无需传统游戏引擎 [3] 技术架构 - NFD采用帧内双向注意力和帧间因果注意力机制建模视频,使用扩散模型多步迭代生成连续Token [21] - 引入块状因果注意力机制的Transformer,将整体计算成本减少50%,支持高效并行预测下一帧所有Token [25][26] - 基于Flow Matching构建训练流程,通过线性插值生成加噪版本并最小化Flow Matching损失 [27] 性能优化 - 通过一致性蒸馏扩展到视频领域,将流匹配模型转换为TrigFlow模型,简化训练过程 [28] - 提出投机采样技术,利用可预测的用户输入并行生成多帧,预测错误时丢弃后续帧重新生成 [30][33] - 310M模型FVD达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69 [35] 性能表现 - NFD+加速版本130M和310M模型分别达到42.46FPS和31.14FPS,远超基线 [36] - 310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当 [37] - 相比此前每秒4-7帧的MineWorld模型,NFD生成速度快了几倍 [15][18] 行业影响 - 视频生成模型在多个领域快速发展,包括Sora、可灵、Veo3等产品及Genie、MineWorld等游戏模拟器 [37] - 该技术为未来世界模型的实现提供重要基础,高效生成范式变得越来越重要 [37] - 可能重塑游戏行业交互模式,实现玩家与模型的直接互动 [3]