技术方案概述 - 巨人网络AI Lab与清华大学电子工程系SATLab联合首创DiaMoe-TTS,这是一个在一定程度上媲美工业级方言TTS模型的开源全套解决方案[2] - 该方案基于语言学家的专业经验构建了统一的国际音标表达体系,并仅依赖开源方言ASR数据[2] - 在推出中文方言版本前,研究团队已在英语、法语、德语、荷兰比尔茨语等多语种场景中进行验证,确保方法具备全球多语言的可扩展性与稳健性[2] 开源贡献与可及性 - DiaMoE-TTS是一个面向学术界与开源社区的全链路贡献,旨在推动方言语音合成的公平与普惠[4] - 代码与训练推理脚本已在GitHub全面开源,并提供全开源的数据预处理流程[6][7] - 框架提供统一的IPA标注与对齐方法、完整的训练与推理代码,以及方言感知MoE架构与低资源适配策略,降低复现与扩展门槛[7] 核心技术创新 - 引入国际音标作为统一输入体系,将所有方言语音映射到同一音素空间,消除跨方言差异性,保证建模一致性与泛化能力[13] - 设计方言感知的Mixture-of-Experts架构,通过动态门控机制自动选择最合适的专家路由,保留每种方言的音色和韵律特点[15] - 针对低资源方言提出参数高效迁移策略,仅需微调少量参数即可完成方言扩展,避免对已有知识的遗忘[19] 模型性能表现 - 在数据量充足的粤语上,DiaMoE-TTS在WER、MOS和UTMOS三个指标上均接近工业界语音大模型表现[25] - 该方案支持的方言范围更广,甚至可以扩展到京剧韵白等特殊类型,并在极少量数据下实现快速建模[25] - 消融实验表明,完整方案在所有方言上都取得最佳效果,WER从90%以上显著下降到30%40%区间,MOS评分提升12分[27][28] 应用前景与未来发展 - 该框架旨在让全球研究者与开发者更便捷地参与方言与小语种语音技术研究,在教育、文化保护、虚拟人、数字文旅与跨境交流等场景中发挥价值[33] - 未来将持续扩展更多方言与小语种语料,完善IPA对齐与数据预处理流程,探索更高效的低资源建模方法[33] - 目标是在开放数据驱动下,实现低成本、低门槛、可扩展的多方言语音合成方案[30]
清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源
机器之心·2025-10-15 12:08