数据优化驱动的声学建模框架

搜索文档
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
机器之心· 2025-05-26 09:28
语音合成技术发展现状 - 语音合成技术从拼接式合成和统计参数模型发展到深度神经网络与扩散、GAN等先进架构,实现了接近真人的自然度与情感表达 [1] - 技术繁荣主要局限于英语、普通话等大语种,全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性面临巨大挑战 [1] 泰语TTS解决方案 - 提出数据优化驱动的声学建模框架创新方案,通过构建系统化泰语数据集结合先进声学建模技术,实现有限资源下的高质量TTS合成 [3] - 框架具备zero-shot声音克隆能力,展示优异跨场景适用性,为小语种TTS系统构建提供有效范式 [3] 数据驱动模型设计 - 整套框架以数据质量为核心抓手,以模块化设计保障可扩展性,解决小语种TTS"数据稀缺+语言复杂"双重瓶颈 [5] - 构建多维泰语语料库包括500小时多领域语音、40小时垂直领域语音、100万句文本语料等 [9][14] 预处理流程创新 - 设计"三步一体、逐层解耦"预处理流程,化解泰语文本无标点、无空格、声调复杂三重难题 [11] - 通过LLM增强的停顿预测、词切分与混合式G2P,将原始文本转换为结构化"音素-声调"序列 [8][15] 模型架构特点 - 集成"多源特征×声调感知×零样本克隆"组合设计,采取先独立训练预测器再联合微调策略 [13] - 使用Phoneme-Tone BERT显式融入五声调,GAN解码器直接从音素与预测特征合成波形 [16] 实验效果验证 - 系统WER为6.3%,NMOS达4.4,超越Google TTS和Microsoft TTS等商业方案 [19] - 零样本声音克隆取得SIM 0.91和SMOS 4.5,显著优于OpenVoice的0.85与4.0 [19][20] - 消融实验显示停顿预测、分词优化和G2P优化对系统性能影响显著,G2P影响最大 [20]