零样本语音合成

搜索文档
开源播客生成MoonCast:让AI播客告别"机械味",中英双语对话更自然!
量子位· 2025-06-04 13:21
技术突破 - MoonCast是一款革新性的对话式语音合成模型,能够仅凭数秒参考音频完成逼真复刻,目前已开源 [2][6] - 该技术专为高质量播客内容创作打造,可将文档转化为引人入胜的播客音频,且训练时未见过这些对话的文本内容和说话人音色 [5] - 采用强大的zero-shot text-to-speech技术,实现仅凭数秒参考音频就能合成逼真语音 [6] 行业痛点 - 现有语音合成技术主要针对短句、单人语音场景,难以应对播客这种长时间、多人对话、自然口语化的复杂场景 [8] - 优秀播客通常需要几分钟甚至几十分钟时长,多位主持人互动交流,具有自然随性、即兴发挥的特点 [8] - 传统技术训练于相对正式、书面化的单人场景,难以捕捉播客的"人味" [8] 解决方案 - 在剧本生成和音频建模两方面创新突破,打造更自然、高质量的AI播客系统 [9] - 利用25亿参数超大规模语言模型作为AI大脑,提升音频生成和语义理解能力 [19] - 收集海量多样化训练数据,包括30万小时中文电子书、1.5万小时中文对话和20万小时英语对话数据 [19] - 将模型上下文长度扩展到40k,理论上支持超过10分钟的超长音频生成 [19] 剧本生成技术 - 借助LLM理解能力提炼信息生成摘要,确保剧本言之有物 [12] - 利用LLM生成能力创作剧本,加入填充词、响应词、随机卡顿等口语细节增强"人味" [13][18] - 将专业知识转化为浅显易懂的口语化表达,设计流畅自然的对话结构 [18] 训练方法 - 采用三阶段训练方法:先学习短句单人语音,再处理非口语化长音频,最后掌握复杂播客生成技巧 [16][19] - 创新采用短段级别自回归音频重建技术,提升长音频生成的连贯性 [16] - 通过消融实验证明口语细节对生成"人味"音频的关键作用 [20][21] 应用场景 - 可处理多种输入知识源,包括新闻报道、学术论文、故事等 [18] - 已展示中文播客和英文播客生成能力,能创作地道相声等多样化内容 [4] - 提供GitHub开源项目、论文和Demo供用户体验 [22]