
文章核心观点 - 快手可灵团队提出MIDAS框架 通过自回归视频生成结合轻量化扩散去噪头 实现多模态条件下实时流畅的数字人视频合成 具备低延迟 多模态控制与长时序一致性三大核心优势[2] - 该系统支持音频 姿态 文本等多种输入信号 通过统一多模态条件投影器编码到共享潜在空间 实现语义和空间一致的数字人生成[5] - 在双人对话 多语言歌唱合成和交互世界建模等任务中表现优异 生成延迟低于500ms 支持长达4分钟的连续生成且质量衰减显著低于基线方法[13][14] 技术架构 - 采用因果潜在预测加扩散渲染设计 嵌套类似大语言模型的自回归架构逐帧预测潜在表示 再由轻量级扩散头进行去噪和高清渲染[7] - 使用高压缩率自编码器DC-AE 压缩比高达64倍 每帧图像最多用60个令牌表示 支持最高384×640分辨率图像重建[8] - 基于Qwen2.5-3B作为自回归主干网络 扩散头采用PixArt-α/mlp结构 支持分块流式生成每块6帧[12] 性能表现 - 端到端生成延迟低于500ms 扩散头仅需4步去噪 在效率与视觉质量间取得最佳平衡[4][14] - 支持双人实时对话交互 生成与语音同步的口型 表情和倾听姿态[13] - 实现中文 日文 英文歌曲的唇形同步 生成视频可达4分钟无显著漂移[13] - 在Minecraft数据集训练后展现出良好场景一致性与记忆能力[13] 数据与训练 - 构建约2万小时大规模多模态对话数据集 涵盖单人 双人对话场景及多语言多风格内容[10] - 引入可控噪声注入训练策略 通过20级噪声桶和对应嵌入缓解自回归模型推理阶段的曝光偏差问题[12] 应用前景 - 为虚拟人直播 元宇宙交互 多模态AI智能体等应用奠定技术基础[16] - 模块化设计允许灵活扩展至更多模态与控制信号[16] - 未来将探索更高分辨率 更复杂交互逻辑下的生成能力 并推进系统在真实产品环境中的部署[17]