Workflow
Context Scaling
icon
搜索文档
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 12:40
AGI发展路径 - 大模型演进分为三幕:第一幕是模型规模化胜利,通过堆叠数据与参数实现通用任务跃升,代表模型包括ChatGPT、MOSS、Qwen [6] - 第二幕是后训练优化探索,通过强化学习、工具调用、思维链等技术提升复杂问题决策能力,代表成果包括GPT o1/o3、DeepSeek-R1、AnyGPT [6] - 第三幕Context Scaling聚焦情境理解,旨在让AI适应复杂多变情境并捕获"暗知识",实现模糊环境中的合理判断 [7][8] Context Scaling核心价值 - Context是多维动态信息结构,包含时空信息、参与者状态、文化规则等未明示的语境暗示 [9] - 关键能力是捕获"暗知识"(如社交暗示、文化差异判断),解决现有技术对模糊任务描述的局限性 [11] - 对AI安全发展至关重要,通过情境理解使AI做出符合人类价值观的自主判断(如规避回形针悖论) [12] 技术实现支柱 - 强交互性:要求AI具备社交智能、文化适应、动态调整能力,需从多模态协作中理解情绪状态和未说出口的期望 [14][15] - 具身性:智能体需具备虚拟或现实环境中的主体性,通过感知-行动闭环实现情境学习 [16] - 拟人化:需深度理解人类情感模式与文化敏感性,在参数固定情况下通过Context积累实现持续能力提升 [17] 技术协同与挑战 - Context Scaling与Test-Time Scaling形成互补,前者提升输入质量后者优化计算效率 [18] - 为强化学习提供新环境定义,将简单状态-动作循环升级为含丰富情境的交互空间 [20] - 面临三大技术挑战:Transformer架构重构、学习范式向交互式持续学习转变、复杂情境数据的生成方法创新 [23] 行业影响 - 将推理增强、多模态融合等技术统一于"情境理解"目标,可能成为通向AGI的关键路径 [22] - 代表企业包括OpenAI(o系列数学推理)、DeepSeek(GRPO强化学习突破)等探索不同扩展路径的机构 [2] - 复旦大学邱锡鹏教授提出该理论框架,指出行业需突破已有路径微调,解决"意识到但未表达"的核心问题 [22]