击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了
机器之心·2026-01-20 18:19

模型性能与突破 - 模思智能发布的MOSS-Transcribe-Diarize模型在多人说话场景的语音转录性能上超过了GPT-4o、Gemini、豆包等一众模型 [1] - 该模型能够轻松应对混乱插话、频繁切话或重叠说话等复杂场景,解决了语音识别领域多人说话场景的落地痛点问题 [1] - 在AISHELL-4、Podcast、Movies等多个语音基准测试中,模型均取得了业界最优的整体表现,尤其是在最接近真实应用的复杂影视剧场景下表现稳定 [2] - 模型在多说话人混合与重叠场景下取得了业内领先的转录准确率,拥有最低的字错误率与最优排列字错误率 [5] - 在说话人分离性能上,模型保持了最好的说话人标签准确性和一致性,优于其他因长音频切片导致识别不一致的模型 [5] - 模型支持128K的长上下文窗口,可以一次性输入并处理长达90分钟的音频,而当前顶尖商业模型受限于输入长度或输出格式的稳定性 [1][5] 技术架构与方案 - MOSS-Transcribe-Diarize是一个统一的端到端多模态语音转录模型,能够同时完成听懂内容、识别说话人及记录说话时间三件事 [8] - 模型主要解决带说话人归属和时间戳的转录这一经典且极具挑战的问题,克服了传统模块化拼接方案、引入LLM的半级联方案以及其他多模态框架尝试的缺陷 [8] - 该模型一举解决了长上下文窗口受限、长时记忆脆弱和缺乏原生时间戳三大核心瓶颈 [9] - 在架构设计上,模型采用统一的音频-文本多模态架构,将多说话人的声学表示投影到预训练文本LLM的特征空间中,在单一框架内联合建模词汇内容、说话人归属和时间戳预测 [11][12] - 在训练数据上,采用“虚实结合”的策略,使用大量真实世界对话音频和通过概率模拟器生成的合成数据进行训练,增强了对重叠语音、轮替等场景的鲁棒性 [13] 基准测试表现 - 在包含近40分钟真实世界会议录音的AISHELL-4数据集上,MOSS-Transcribe-Diarize在CER和cpCER两项指标上大幅优于所有基线模型,并表现出更低的Δcp值 [16] - 相比之下,GPT-4o和Gemini 3 Pro均无法可靠处理AISHELL-4等长音频输入,前者受限于音频输入长度,后者无法生成符合既定格式的有效输出 [16] - 在多说话人播客访谈场景的Podcast数据集上,模型再次取得所有参评模型中最低的CER和cpCER,并在Δcp值上优于其他模型,表明其在频繁话轮转换和长跨度说话人重现场景下归属更准确 [19] - 在复杂影视剧场景的Movies数据集上,面对短促话语、快速交替及频繁语音重叠的场景,模型依然优于所有基线模型,且在CER和cpCER两项指标间保持了较小差距 [21] 公司背景与战略 - MOSS系列模型由复旦大学教授邱锡鹏带领的团队研发,该团队组建的模思智能是一家专注面向情境智能的多模态大模型公司 [24] - 团队保持了清晰的战略技术路径:让大模型理解复杂的真实世界情境,并以情境多模态实现通用人工智能 [24] - 公司发布了一系列多模态领域的前沿技术成果,覆盖实时对话交互、复杂场景音频生成、高鲁棒性语音理解、多模态交互等核心能力场景 [24] - 面向未来,公司将持续深耕让AI理解用户所处全局情境的多模态智能,通过规模化物理世界的复杂真实情境,推动多模态交互与具身智能的产业化落地 [24] - 此前,公司已开源革命性的对话语音合成模型MOSS-TTSD,并发布了实现SOTA性能的无文本引导真端到端语音大模型MOSS-Speech [25]