夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
观察者网·2025-07-25 12:16
技术突破 - 夸克AI技术团队与浙江大学合作开源音频驱动全身视频生成模型OmniAvatar,实现从面部到全身驱动的技术跨越 [1] - 模型仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性 [1] - 通过提示词可精准控制人物姿势、情绪、场景等要素,突破传统技术难以精确控制的局限 [1] 核心技术 - 采用基于像素的音频嵌入策略,使音频特征以像素级方式融入模型潜在空间,生成更协调的身体动作 [1] - 运用多层级音频嵌入策略,将音频信息嵌入DiT模块不同阶段,保持各层次独立学习路径 [1] - 提出基于LoRA的平衡微调策略,在不改变底层模型容量情况下高效学习音频特征,兼顾视频质量与细节 [2] 技术挑战 - 通过参考图像嵌入策略和帧重叠技术解决长视频连续生成的难点,确保视频连贯性和人物身份一致性 [1] - 当前模型在实验数据集上已验证初步效果,但尚未达到产品级应用水平 [2] 未来发展 - 未来将重点提升复杂指令处理能力和多角色交互能力 [2] - 计划扩大模型在更多场景中的应用范围 [2]