公司技术发布与市场反响 - 哔哩哔哩Index团队开源了新一代文本转语音模型IndexTTS-2.0,该模型生成的AI视频(如英文版《甄嬛传》)因高度还原角色音色、情感和韵律而在B站等平台引发关注 [2] - 该模型在GitHub上已获得超过10,000个stars,表明其在海内外开发者社区中受到了高度关注 [3] - 研究团队现已开放模型权重与代码,允许开发者和研究人员基于此构建个性化、沉浸式的语音交互应用 [27] 技术突破与核心架构 - 论文标题为《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》,旨在解决传统自回归模型难以精确控制语音时长的问题 [5][6] - 模型创新性地提出了适用于自回归系统的“时间编码”机制,首次解决了传统自回归模型难以精确控制语音时长的问题,并引入了音色与情感的解耦建模 [6] - IndexTTS2由三个核心模块组成:Text-to-Semantic模块、Semantic-to-Mel模块以及BigVGANv2声码器,支持零样本条件下生成自然流畅的多情感、跨语言语音 [8] 关键技术特性:时长控制 - 模型通过基于token数量约束的解决方案,在生成时可指定所需语义token数,实现对生成语音时长的精确控制 [9] - 训练阶段随机引入不同比例的时长缩放任务,使模型学会在各种长度要求下保持语义连贯和情感自然 [9] - 实验表明,该方法在不同语言上的token数量误差率非常低,在0.75倍至1.25倍的变速测试中,生成语音的Token数量误差率几乎不超过0.03%,多数情况下低于0.02% [16][17] 关键技术特性:情感与音色控制 - 模型对情感表达和说话人身份进行有效解耦,支持分别指定独立的音色参考和情感参考,实现了用一个人的音色说出另一个人的情感 [12] - 集成了两种情感控制方式:通过音频参考进行情感迁移,以及基于自然语言描述的情感软指令机制 [12] - 提供了8种情绪向量(高兴、生气、悲伤、恐惧、讨厌、低落、惊喜、平静),支持自由调整情绪权重和随机采样 [24] 关键技术特性:模型性能增强 - 引入了GPT式潜在表征,并采用基于流匹配的Semantic-to-Mel模块,显著增强了在高强度情感下语音的清晰度和梅尔频谱图的重建质量 [13] - 消融实验证明,GPT潜在特征对于保证语音清晰度和发音准确性至关重要;基于流匹配的S2M模块相比传统方案,极大提升了合成语音的保真度和自然度 [22] 研究成果与性能表现 - 在情感表现力测试中,IndexTTS2的情感相似度高达0.887,情感MOS评分达到4.22,词错误率低至1.883%,在表现力与清晰度上结合完美 [18][19] - 在多个公开基准测试集上,IndexTTS2在客观指标和主观MOS评分上均达到或超越了当前最先进的开源模型,如MaskGCT、F5-TTS、CosyVoice2等 [20][21] - 模型支持中英文双语跨语种合成,并具备工业级性能,适合研究探索和实际场景应用 [8][25] 应用场景与行业影响 - 该技术可广泛应用于AI配音、视频翻译、有声读物、动态漫画、语音对话等下游场景 [25] - 特别为哔哩哔哩优质内容的出海提供了关键技术支持,能在保留原声风格与情感的基础上,为海外用户提供更自然沉浸的听觉感受,降低高质量内容跨语言传播的门槛 [25] - 此次突破标志着零样本TTS进入“情感可控+时长精确”的双维度时代,为未来语音合成技术向更复杂特征的细粒度控制发展指明了方向 [26]
B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代