清华&巨人网络首创MoE多方言TTS框架,数据代码方法全开源
机器之心·2025-10-15 12:08
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类 语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。 在当今 大模型引领的语音合成时代 ,通用 TTS 系统已展现出令人惊叹的能力,但方言 TTS 依然是相关从业者难以触及的「 灰色地带」。现有的工业级模型往往 依赖 巨量专有数据 ,这让 方言 TTS 从业者和研究者几乎无从下手 :缺乏统一的语料构建方法,更缺乏一个可实现多语言的端到端开源框架。 为此,来自巨人网络 AI Lab 与清华大学电子工程系 SATLab 的研究团队联合首创了 DiaMoe-TTS —— 一个在一定程度上媲美工业级方言 TTS 模型的开源全套解决 方案。他们基于语言学家的专业经验,构建了一个统一的 IPA 表达体系,并且在仅依赖开源方言 ASR 数据的前提下提出这一方案。 在推出中文方言版本之前,研究团队已在 英语、法语、德语、荷兰比尔茨语 等多语种场景中进行过验证,确保该方法具备全球范围内多语言的可扩展性与稳健 性。 最重要的是,D ...