Workflow
MoonCast
icon
搜索文档
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]
腾讯研究院AI速递 20250605
腾讯研究院· 2025-06-04 22:24
生成式AI 一、 OpenAI 将为免费版的ChatGPT用户,提供轻量级记忆功能 1. OpenAI为免费版ChatGPT提供轻量级记忆功能,可根据用户对话习惯进行个性化回答; 2. 轻量级记忆功能(免费版)仅支持短期对话的连续性,用户可以体验基础的记忆功能,让 ChatGPT记住一些基本的用户偏好和对话内容 ; 3. 该功能对写作、金融分析、医疗跟踪等领域有显著帮助,用户可随时启用或禁用相关功 能。 https://mp.weixin.qq.com/s/K5PAi-iQ2Dcnip6Lw2gAFg 二、 ChatGPT的plus普通会员能用编程神器Codex了!支持联网 1. ChatGPT的CodeX编程工具现已向Plus会员开放,新增互联网访问、更新PR和语音输入 功能; 2. CodeX互联网访问功能默认关闭需手动开启,提供约70个安全白名单网站; 3. OpenAI在持续更新中,CodeX两周内已更新三次,奥特曼表示更多功能即将发布,如o3 pro模型等。 https://mp.weixin.qq.com/s/T2Xxw7mNdDH5O0yx5_Ewjw 三 、 将被 OpenAI 收购的 AI ...
开源播客生成MoonCast:让AI播客告别"机械味",中英双语对话更自然!
量子位· 2025-06-04 13:21
输入知识源:经典经济学论文 (PDF 链接: https://gwern.net/doc/statistics/decision/1951-nash.pdf) Zeqian Ju 投稿 量子位 | 公众号 QbitAI 英文播客示例: 仅听几秒人声,即可完成逼真复刻,而且是 对话式语音。 这就是 MoonCast , 一款革新性的对话式语音合成模型, 目前已开源 。 MoonCast 的"人味"播客效果如何?立即试听以下示例音频,让耳朵告诉你答案。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 中文播客示例: 输入知识源:诺贝尔物理学奖新闻稿 (URL 链接: https://www.nobelprize.org/prizes/physics/2024/press-release/) 生成一段地道的 相声 ,完全就是郭德纲于谦那味儿啊。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 它专为高质量播客内容创作量身打造, 旨在将文档转化为引人入胜的播客音频。 这些对话无论是文本内容还是说话人音色,MoonCast在训 练时都从未见过。 这得 益于强大的 ...