Workflow
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心·2025-07-25 12:29

模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]