Waver - 财报，业绩电话会，研报，新闻

Waver

搜索文档

机器之心· 2025-12-30 07:36

研究背景与动机 - 当前视频-音频联合生成的开源方案主要分为“级联式”和“端到端联合生成”两类，前者易导致音画割裂，后者为对齐多模态通常需在自注意力层外设计额外融合模块，破坏了Transformer架构的简洁性并可能阻碍扩展[8] - JoVA框架提出一种更简洁的设计，直接使用联合自注意力层进行视频和音频模态特征的融合与对齐，无需引入新模块，同时承担单模态建模与跨模态融合任务[8] 方法设计 - 架构基于Waver基础模型，通过复制预训练视频主干网络参数来初始化音频扩散模型，使用MMAudio VAE将音频转换为声谱图潜在表示[10] - 采用两阶段训练：预训练阶段视频和音频模态独立训练，后续阶段整合进同一架构并行处理，视频生成支持参考图像作为条件输入[10] - 核心创新是采用联合自注意力机制，将视频、音频及对应文本Token拼接后输入共享的自注意力层，允许不同模态Token在每一层直接交换信息[12] - 为确保时间同步，模型采用了源自MMAudio的时间对齐旋转位置编码，在时间维度上同步了两种模态的位置编码[12] - 为解决唇形同步问题，引入了潜空间嘴部区域感知监督：通过面部关键点检测定位嘴部区域，映射到VAE潜空间，并在训练损失函数中增加专门的嘴部区域损失项[13] 训练数据集与策略 - 训练数据集包含Text2Audio、Text2Video-Audio及Text2Avatar-Speech三部分，总计约190万条训练样本[4][17] - 数据标注采用自动化流水线，使用Tarsier2生成视频描述，Audio-flamingo3生成音频描述，并利用Whisper进行自动语音识别以获取语音文本[17] - 采用两阶段训练策略：先进行80K步语音单模态独立训练，再进行50K步联合视听训练，推理时使用分类器无关引导以提升生成质量[17] 实验结果：性能对比 - 在UniAvatar-Bench基准上，JoVA在视频动态程度（MS 0.98）和美学评分（AS 0.47）上领先，身份一致性（ID 0.78）在联合生成任务中处于合理范围[20] - 在Verse-Bench基准上，JoVA展现了在多样化场景下的鲁棒性，语音准确性词错误率低至0.11，视听对齐LSE-C得分为6.51[21][23] - 在唇形同步关键指标上，JoVA的LSE-C得分为6.64，优于联合生成模型OVI（6.41）和Universe-1（1.62），甚至超过了使用真实音频驱动的Wan-S2V（6.43）[21][26] - 在语音与音频质量上，JoVA取得了最低的词错误率（WER 0.18），并在多项音频生成指标上取得最佳分数[26] 实验结果：模型效率与扩展性 - 基于Waver-1.6B主干（总参数量32亿）的JoVA模型，仅使用190万训练数据，其LSE-C得分达到6.20，显著优于参数量更大（71亿）且训练数据更多（640万）的Universe-1模型（LSE-C 1.62），并与109亿参数的OVI模型具备竞争力[24][25] - 当参数量增加至240亿时，JoVA在各项指标上达到最佳水平，LSE-C提升至6.64，WER降至0.18[24][25] 实验结果：消融分析 - 嘴部感知损失权重实验表明，当权重为0.0时，模型无法学习细粒度唇形对齐（LSE-C仅为1.39），权重增加至5.0时，LSE-C显著提升至6.64，且未损害其他质量指标[27] - 采用时间对齐的RoPE相比未对齐版本，LSE-C从6.58提升至6.64，尽管在音频分布相似度上存在轻微折损，但显著增强了帧级时间对应关系[28] - 联合自注意力机制在唇形同步（LSE-C 6.64）和语音准确性（WER 0.18）上均优于交叉注意力变体，证实了在统一注意力空间内直接处理多模态Token更能促进有效对齐[29][30]

视频 - 音频联合生成

联合自注意力

Artificial Intelligence

Artificial Intelligence

JoVA

Waver

MMAudio VAE

晚点独家丨爱诗科技完成 1 亿元 B+ 轮新融资，ARR 突破 4000 万美元

晚点LatePost· 2025-10-17 15:29

公司动态：爱诗科技 - 爱诗科技完成1亿元人民币B+轮融资，由复星锐正、同创伟业、顺禧基金共同投资，公司成立于2023年4月，累计融资总额超过1亿美元 [5] - 公司旗下产品PixVerse（海外版）和拍我AI总用户数超过1亿，月活跃用户超1600万，年度经常性收入达4000万美元 [5] - 公司创始人王长虎拥有近20年AI研究经历，曾任职于微软亚洲研究院和字节跳动，联合创始人谢旭璋有6年光源资本工作背景 [9] - 产品PixVerse网页端上线后，通过变身特效实现1000万新用户增长，2025年5月V4.5版本上线后用户规模达6000万，8月V5版本上线并推出Agent创作助手，用户规模达到1亿 [9] 行业竞争格局 - 在图片生成视频模型领域，全球前十名中前三名均为中国公司，分别是快手可灵、爱诗PixVerse和MiniMax海螺，OpenAI的Sora模型排名第31位 [10][11] - 在文字生成视频模型榜单中，OpenAI的Sora 2模型排名第11位 [10][11] - 字节跳动旗下的视频生成模型Seedance和Waver在榜单中分别位列第7和第8位，其产品即梦移动端日活目标为超过500万 [12] - 行业领先的大语言模型主要由美国公司如Google、OpenAI、Anthropic提供，但在视频、语音等多模态领域，中国公司模型已跻身全球顶尖行列 [11] 产品与技术进展 - OpenAI发布视频生成模型Sora 2及社交应用Sora App，新模型在物理模拟、音画同步与场景连贯性上有显著提升，用户可生成带声音的视频并在类TikTok内容流中分享 [7][8] - Sora App上线后迅速登顶美区App Store免费榜并连续7天位居第一，上线不到两周下载量突破100万，增长速度超过当年ChatGPT [8] - 爱诗科技针对移动端产品进行大量优化，包括人物一致性、画质可选项和生成速度，并通过特效模板如“变身”等带来上千万新增用户 [9][11] - OpenAI宣布Sora App和网页端用户可生成最长15秒视频，Pro用户可在网页端生成最长25秒视频，此前标准版为10秒，Pro版为15秒 [13] 市场趋势与潜力 - 视频生成移动App赛道市场容量极大，现有工具和产品短期内无法完全覆盖所有用户，抖音和TikTok月活超过20亿，每个短视频用户都是潜在AI视频创作者 [9] - 快手可灵核心目标聚焦专业创作者而非普通用户，自启动商业化以来截至今年2月累计营收已突破1亿元 [12] - 多模态领域被认为具有巨大的消费和娱乐潜力，尽管不是AGI演进的最主轴，但该领域的竞争烈度正在加剧 [4][13] - 行业公司在技术突破和应用体验两个维度并行推进，Google Veo3、快手可灵等侧重长时一致性和专业工作流，而字节即梦、爱诗等加强产品体验和新奇玩法 [12]