Workflow
零样本歌声合成
icon
搜索文档
工业级稳定可用、零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer
金融界· 2026-02-10 11:02
行业背景与市场痛点 - 过去一年生成式AI在音乐行业应用不断创造新体验,但歌唱语音合成领域整体进展相对缓慢 [1] - 行业内缺乏一个真正稳定可用、同时支持零样本生成的开源歌声合成模型,这很大程度上制约了SVS技术在真实业务场景中的应用与落地 [6] - SVS技术专注于可由MIDI控制的人声生成,在虚拟歌手、歌词演绎以及多语言歌声创作等场景中展现出独特价值 [6] 公司产品发布与合作方 - Soul App AI团队联合吉利汽车研究院人工智能中心、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组,正式开源歌声合成模型SoulX-Singer [1] - 该模型是一个面向真实应用场景设计的高质量零样本歌声合成模型 [1] - 模型在稳定性、可控性与泛化能力方面,均达到了当前开源SVS模型中的领先水平 [1] 模型核心技术与架构 - SoulX-Singer采用基于Flow Matching的生成建模范式,并将歌声合成问题建模为一种audio infilling任务 [7] - 针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,模型在建模阶段显式引入了note级别的对齐机制 [7] - 模型通过构建歌词、MIDI音符与声学特征之间的精细对齐关系,使得每一个音符的起止时间、音高以及持续时长都能够被准确建模和独立控制 [8] 训练数据规模与能力基础 - 模型得益于超过42000小时的高质量歌声数据进行训练,覆盖多语言、多音色及多种演唱风格 [9] - 在大规模数据支持下,模型在面对未见过的歌手与复杂音乐条件时,依然能够保持稳定、自然且高质量的合成表现 [9] 产品功能与控制方式 - SoulX-Singer同时支持基于Music Score和基于Melody的两种歌声合成控制方式 [10] - Music Score驱动生成支持直接基于乐谱与歌词生成歌声,具备音符级别的时长与节奏控制能力 [10] - Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式 [10] - 当前模型支持普通话、英语和粤语三种语言的歌声合成 [12] 模型性能与评测结果 - 模型在GMO-SVS和SoulX-Singer-Eval两个数据集上进行了系统评测 [15] - 在中文歌声合成任务中,使用Melody控制时,SoulX-Singer的WER为0.065,SIM为0.897,FFET为0.044,SingMOS为4.458,Sheet为4.110 [16] - 在中文歌声合成任务中,使用Score控制时,SoulX-Singer的WER为0.069,SIM为0.905,FFET为0.122,SingMOS为4.445,Sheet为4.107 [16] - 在英文歌声合成任务中,使用Melody控制时,SoulX-Singer的WER为0.151,SIM为0.918,FFET为0.036,SingMOS为4.323,Sheet为3.751 [16] - 在英文歌声合成任务中,使用Score控制时,SoulX-Singer的WER为0.149,SIM为0.926,FFET为0.164,SingMOS为4.303,Sheet为3.705 [16] - 实验结果表明,SoulX-Singer在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上均显著优于此前的相关工作 [15] 战略意义与公司技术布局 - SoulX-Singer的发布提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成解决方案 [17] - 该模型为歌声合成技术在UGC音乐创作等方向的实际应用探索带来了积极意义 [17] - Soul AI团队此前已陆续开源了播客语音合成模型SoulX-Podcast、实时数字人生成模型SoulX-FlashTalk,在语音、歌声、实时数字人、视频等不同领域提供了可落地的多模态生成方案 [17]