Workflow
音频驱动全身视频生成
icon
搜索文档
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心· 2025-07-25 12:29
模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]
夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
观察者网· 2025-07-25 12:16
技术突破 - 夸克AI技术团队与浙江大学合作开源音频驱动全身视频生成模型OmniAvatar,实现从面部到全身驱动的技术跨越 [1] - 模型仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性 [1] - 通过提示词可精准控制人物姿势、情绪、场景等要素,突破传统技术难以精确控制的局限 [1] 核心技术 - 采用基于像素的音频嵌入策略,使音频特征以像素级方式融入模型潜在空间,生成更协调的身体动作 [1] - 运用多层级音频嵌入策略,将音频信息嵌入DiT模块不同阶段,保持各层次独立学习路径 [1] - 提出基于LoRA的平衡微调策略,在不改变底层模型容量情况下高效学习音频特征,兼顾视频质量与细节 [2] 技术挑战 - 通过参考图像嵌入策略和帧重叠技术解决长视频连续生成的难点,确保视频连贯性和人物身份一致性 [1] - 当前模型在实验数据集上已验证初步效果,但尚未达到产品级应用水平 [2] 未来发展 - 未来将重点提升复杂指令处理能力和多角色交互能力 [2] - 计划扩大模型在更多场景中的应用范围 [2]
音频驱动全身视频生成模型 夸克与浙江大学联合开源OmniAvatar
快讯· 2025-07-25 09:27
技术创新 - 阿里旗下夸克技术团队与浙江大学联合开源OmniAvatar模型 这是一个创新的音频驱动全身视频生成模型 [1] - 该模型仅需输入一张图片和一段音频即可生成相应视频 显著提升人物唇形同步细节和全身动作流畅性 [1] - 模型支持通过提示词精准控制人物姿势 情绪 场景等要素 [1] 行业应用 - 该技术突破在视频生成领域具有潜在应用价值 可提升虚拟数字人 在线教育 娱乐等内容创作效率 [1]