Waver
搜索文档
港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型
机器之心· 2025-12-30 07:36
研究背景与动机 - 当前视频-音频联合生成的开源方案主要分为“级联式”和“端到端联合生成”两类,前者易导致音画割裂,后者为对齐多模态通常需在自注意力层外设计额外融合模块,破坏了Transformer架构的简洁性并可能阻碍扩展[8] - JoVA框架提出一种更简洁的设计,直接使用联合自注意力层进行视频和音频模态特征的融合与对齐,无需引入新模块,同时承担单模态建模与跨模态融合任务[8] 方法设计 - 架构基于Waver基础模型,通过复制预训练视频主干网络参数来初始化音频扩散模型,使用MMAudio VAE将音频转换为声谱图潜在表示[10] - 采用两阶段训练:预训练阶段视频和音频模态独立训练,后续阶段整合进同一架构并行处理,视频生成支持参考图像作为条件输入[10] - 核心创新是采用联合自注意力机制,将视频、音频及对应文本Token拼接后输入共享的自注意力层,允许不同模态Token在每一层直接交换信息[12] - 为确保时间同步,模型采用了源自MMAudio的时间对齐旋转位置编码,在时间维度上同步了两种模态的位置编码[12] - 为解决唇形同步问题,引入了潜空间嘴部区域感知监督:通过面部关键点检测定位嘴部区域,映射到VAE潜空间,并在训练损失函数中增加专门的嘴部区域损失项[13] 训练数据集与策略 - 训练数据集包含Text2Audio、Text2Video-Audio及Text2Avatar-Speech三部分,总计约190万条训练样本[4][17] - 数据标注采用自动化流水线,使用Tarsier2生成视频描述,Audio-flamingo3生成音频描述,并利用Whisper进行自动语音识别以获取语音文本[17] - 采用两阶段训练策略:先进行80K步语音单模态独立训练,再进行50K步联合视听训练,推理时使用分类器无关引导以提升生成质量[17] 实验结果:性能对比 - 在UniAvatar-Bench基准上,JoVA在视频动态程度(MS 0.98)和美学评分(AS 0.47)上领先,身份一致性(ID 0.78)在联合生成任务中处于合理范围[20] - 在Verse-Bench基准上,JoVA展现了在多样化场景下的鲁棒性,语音准确性词错误率低至0.11,视听对齐LSE-C得分为6.51[21][23] - 在唇形同步关键指标上,JoVA的LSE-C得分为6.64,优于联合生成模型OVI(6.41)和Universe-1(1.62),甚至超过了使用真实音频驱动的Wan-S2V(6.43)[21][26] - 在语音与音频质量上,JoVA取得了最低的词错误率(WER 0.18),并在多项音频生成指标上取得最佳分数[26] 实验结果:模型效率与扩展性 - 基于Waver-1.6B主干(总参数量32亿)的JoVA模型,仅使用190万训练数据,其LSE-C得分达到6.20,显著优于参数量更大(71亿)且训练数据更多(640万)的Universe-1模型(LSE-C 1.62),并与109亿参数的OVI模型具备竞争力[24][25] - 当参数量增加至240亿时,JoVA在各项指标上达到最佳水平,LSE-C提升至6.64,WER降至0.18[24][25] 实验结果:消融分析 - 嘴部感知损失权重实验表明,当权重为0.0时,模型无法学习细粒度唇形对齐(LSE-C仅为1.39),权重增加至5.0时,LSE-C显著提升至6.64,且未损害其他质量指标[27] - 采用时间对齐的RoPE相比未对齐版本,LSE-C从6.58提升至6.64,尽管在音频分布相似度上存在轻微折损,但显著增强了帧级时间对应关系[28] - 联合自注意力机制在唇形同步(LSE-C 6.64)和语音准确性(WER 0.18)上均优于交叉注意力变体,证实了在统一注意力空间内直接处理多模态Token更能促进有效对齐[29][30]
晚点独家丨爱诗科技完成 1 亿元 B+ 轮新融资,ARR 突破 4000 万美元
晚点LatePost· 2025-10-17 15:29
公司动态:爱诗科技 - 爱诗科技完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金共同投资,公司成立于2023年4月,累计融资总额超过1亿美元 [5] - 公司旗下产品PixVerse(海外版)和拍我AI总用户数超过1亿,月活跃用户超1600万,年度经常性收入达4000万美元 [5] - 公司创始人王长虎拥有近20年AI研究经历,曾任职于微软亚洲研究院和字节跳动,联合创始人谢旭璋有6年光源资本工作背景 [9] - 产品PixVerse网页端上线后,通过变身特效实现1000万新用户增长,2025年5月V4.5版本上线后用户规模达6000万,8月V5版本上线并推出Agent创作助手,用户规模达到1亿 [9] 行业竞争格局 - 在图片生成视频模型领域,全球前十名中前三名均为中国公司,分别是快手可灵、爱诗PixVerse和MiniMax海螺,OpenAI的Sora模型排名第31位 [10][11] - 在文字生成视频模型榜单中,OpenAI的Sora 2模型排名第11位 [10][11] - 字节跳动旗下的视频生成模型Seedance和Waver在榜单中分别位列第7和第8位,其产品即梦移动端日活目标为超过500万 [12] - 行业领先的大语言模型主要由美国公司如Google、OpenAI、Anthropic提供,但在视频、语音等多模态领域,中国公司模型已跻身全球顶尖行列 [11] 产品与技术进展 - OpenAI发布视频生成模型Sora 2及社交应用Sora App,新模型在物理模拟、音画同步与场景连贯性上有显著提升,用户可生成带声音的视频并在类TikTok内容流中分享 [7][8] - Sora App上线后迅速登顶美区App Store免费榜并连续7天位居第一,上线不到两周下载量突破100万,增长速度超过当年ChatGPT [8] - 爱诗科技针对移动端产品进行大量优化,包括人物一致性、画质可选项和生成速度,并通过特效模板如“变身”等带来上千万新增用户 [9][11] - OpenAI宣布Sora App和网页端用户可生成最长15秒视频,Pro用户可在网页端生成最长25秒视频,此前标准版为10秒,Pro版为15秒 [13] 市场趋势与潜力 - 视频生成移动App赛道市场容量极大,现有工具和产品短期内无法完全覆盖所有用户,抖音和TikTok月活超过20亿,每个短视频用户都是潜在AI视频创作者 [9] - 快手可灵核心目标聚焦专业创作者而非普通用户,自启动商业化以来截至今年2月累计营收已突破1亿元 [12] - 多模态领域被认为具有巨大的消费和娱乐潜力,尽管不是AGI演进的最主轴,但该领域的竞争烈度正在加剧 [4][13] - 行业公司在技术突破和应用体验两个维度并行推进,Google Veo3、快手可灵等侧重长时一致性和专业工作流,而字节即梦、爱诗等加强产品体验和新奇玩法 [12]