Workflow
JoVA
icon
搜索文档
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型
机器之心· 2025-12-30 07:36
研究背景与动机 - 当前视频-音频联合生成的开源方案主要分为“级联式”和“端到端联合生成”两类,前者易导致音画割裂,后者为对齐多模态通常需在自注意力层外设计额外融合模块,破坏了Transformer架构的简洁性并可能阻碍扩展[8] - JoVA框架提出一种更简洁的设计,直接使用联合自注意力层进行视频和音频模态特征的融合与对齐,无需引入新模块,同时承担单模态建模与跨模态融合任务[8] 方法设计 - 架构基于Waver基础模型,通过复制预训练视频主干网络参数来初始化音频扩散模型,使用MMAudio VAE将音频转换为声谱图潜在表示[10] - 采用两阶段训练:预训练阶段视频和音频模态独立训练,后续阶段整合进同一架构并行处理,视频生成支持参考图像作为条件输入[10] - 核心创新是采用联合自注意力机制,将视频、音频及对应文本Token拼接后输入共享的自注意力层,允许不同模态Token在每一层直接交换信息[12] - 为确保时间同步,模型采用了源自MMAudio的时间对齐旋转位置编码,在时间维度上同步了两种模态的位置编码[12] - 为解决唇形同步问题,引入了潜空间嘴部区域感知监督:通过面部关键点检测定位嘴部区域,映射到VAE潜空间,并在训练损失函数中增加专门的嘴部区域损失项[13] 训练数据集与策略 - 训练数据集包含Text2Audio、Text2Video-Audio及Text2Avatar-Speech三部分,总计约190万条训练样本[4][17] - 数据标注采用自动化流水线,使用Tarsier2生成视频描述,Audio-flamingo3生成音频描述,并利用Whisper进行自动语音识别以获取语音文本[17] - 采用两阶段训练策略:先进行80K步语音单模态独立训练,再进行50K步联合视听训练,推理时使用分类器无关引导以提升生成质量[17] 实验结果:性能对比 - 在UniAvatar-Bench基准上,JoVA在视频动态程度(MS 0.98)和美学评分(AS 0.47)上领先,身份一致性(ID 0.78)在联合生成任务中处于合理范围[20] - 在Verse-Bench基准上,JoVA展现了在多样化场景下的鲁棒性,语音准确性词错误率低至0.11,视听对齐LSE-C得分为6.51[21][23] - 在唇形同步关键指标上,JoVA的LSE-C得分为6.64,优于联合生成模型OVI(6.41)和Universe-1(1.62),甚至超过了使用真实音频驱动的Wan-S2V(6.43)[21][26] - 在语音与音频质量上,JoVA取得了最低的词错误率(WER 0.18),并在多项音频生成指标上取得最佳分数[26] 实验结果:模型效率与扩展性 - 基于Waver-1.6B主干(总参数量32亿)的JoVA模型,仅使用190万训练数据,其LSE-C得分达到6.20,显著优于参数量更大(71亿)且训练数据更多(640万)的Universe-1模型(LSE-C 1.62),并与109亿参数的OVI模型具备竞争力[24][25] - 当参数量增加至240亿时,JoVA在各项指标上达到最佳水平,LSE-C提升至6.64,WER降至0.18[24][25] 实验结果:消融分析 - 嘴部感知损失权重实验表明,当权重为0.0时,模型无法学习细粒度唇形对齐(LSE-C仅为1.39),权重增加至5.0时,LSE-C显著提升至6.64,且未损害其他质量指标[27] - 采用时间对齐的RoPE相比未对齐版本,LSE-C从6.58提升至6.64,尽管在音频分布相似度上存在轻微折损,但显著增强了帧级时间对应关系[28] - 联合自注意力机制在唇形同步(LSE-C 6.64)和语音准确性(WER 0.18)上均优于交叉注意力变体,证实了在统一注意力空间内直接处理多模态Token更能促进有效对齐[29][30]