自回归视频生成
搜索文档
Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限
机器之心· 2025-10-18 16:30
文章核心观点 - Self-Forcing++技术突破视频生成长度限制,首次实现4分钟15秒高质量长视频生成,无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想,利用教师模型纠错能力,使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型,尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术,在长视频生成后将噪声重新注入已生成序列,保持时间连续性,避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法,将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏,实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存,实现真正的训练-推理对齐,彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制,惩罚光流突变,使视频运动过渡更自然,光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B,在100秒视频生成中文本对齐得分26.04,时序质量90.87,动态程度54.12,视觉稳定性84.22[25][26] - 在50秒视频生成评测中,动态程度指标达到55.36,远超基线模型的31.96-39.15,视觉稳定性达到90.94,显著优于基线模型的40.12-60.41[25] - 随着训练算力增加,视频质量显著提升,训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性,基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成,存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题,可能丢失被遮挡物体状态,且自回归训练成本较高,效率有待提升[33]
快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破
机器之心· 2025-09-13 16:54
文章核心观点 - 快手可灵团队提出MIDAS框架 通过自回归视频生成结合轻量化扩散去噪头 实现多模态条件下实时流畅的数字人视频合成 具备低延迟 多模态控制与长时序一致性三大核心优势[2] - 该系统支持音频 姿态 文本等多种输入信号 通过统一多模态条件投影器编码到共享潜在空间 实现语义和空间一致的数字人生成[5] - 在双人对话 多语言歌唱合成和交互世界建模等任务中表现优异 生成延迟低于500ms 支持长达4分钟的连续生成且质量衰减显著低于基线方法[13][14] 技术架构 - 采用因果潜在预测加扩散渲染设计 嵌套类似大语言模型的自回归架构逐帧预测潜在表示 再由轻量级扩散头进行去噪和高清渲染[7] - 使用高压缩率自编码器DC-AE 压缩比高达64倍 每帧图像最多用60个令牌表示 支持最高384×640分辨率图像重建[8] - 基于Qwen2.5-3B作为自回归主干网络 扩散头采用PixArt-α/mlp结构 支持分块流式生成每块6帧[12] 性能表现 - 端到端生成延迟低于500ms 扩散头仅需4步去噪 在效率与视觉质量间取得最佳平衡[4][14] - 支持双人实时对话交互 生成与语音同步的口型 表情和倾听姿态[13] - 实现中文 日文 英文歌曲的唇形同步 生成视频可达4分钟无显著漂移[13] - 在Minecraft数据集训练后展现出良好场景一致性与记忆能力[13] 数据与训练 - 构建约2万小时大规模多模态对话数据集 涵盖单人 双人对话场景及多语言多风格内容[10] - 引入可控噪声注入训练策略 通过20级噪声桶和对应嵌入缓解自回归模型推理阶段的曝光偏差问题[12] 应用前景 - 为虚拟人直播 元宇宙交互 多模态AI智能体等应用奠定技术基础[16] - 模块化设计允许灵活扩展至更多模态与控制信号[16] - 未来将探索更高分辨率 更复杂交互逻辑下的生成能力 并推进系统在真实产品环境中的部署[17]
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
核心观点 - 微软研究院与北大联合发布新框架Next-Frame Diffusion (NFD),实现每秒超30帧自回归视频生成,同时保持高质量画面 [1][2] - NFD通过帧内并行采样和帧间自回归方式提升生成效率,在NVIDIA A100 GPU上生成《我的世界》视频仅需0.48秒 [2][4] - 该技术可能改变游戏行业交互方式,玩家可直接与模型交互而无需传统游戏引擎 [3] 技术架构 - NFD采用帧内双向注意力和帧间因果注意力机制建模视频,使用扩散模型多步迭代生成连续Token [21] - 引入块状因果注意力机制的Transformer,将整体计算成本减少50%,支持高效并行预测下一帧所有Token [25][26] - 基于Flow Matching构建训练流程,通过线性插值生成加噪版本并最小化Flow Matching损失 [27] 性能优化 - 通过一致性蒸馏扩展到视频领域,将流匹配模型转换为TrigFlow模型,简化训练过程 [28] - 提出投机采样技术,利用可预测的用户输入并行生成多帧,预测错误时丢弃后续帧重新生成 [30][33] - 310M模型FVD达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69 [35] 性能表现 - NFD+加速版本130M和310M模型分别达到42.46FPS和31.14FPS,远超基线 [36] - 310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当 [37] - 相比此前每秒4-7帧的MineWorld模型,NFD生成速度快了几倍 [15][18] 行业影响 - 视频生成模型在多个领域快速发展,包括Sora、可灵、Veo3等产品及Genie、MineWorld等游戏模拟器 [37] - 该技术为未来世界模型的实现提供重要基础,高效生成范式变得越来越重要 [37] - 可能重塑游戏行业交互模式,实现玩家与模型的直接互动 [3]