Workflow
理想同学MindGPT-4o-Audio实时语音对话大模型发布
理想TOP2·2025-06-06 23:24

理想实时语音对话大模型MindGPT-4o-Audio上线,作为全模态基座模型MindGPT-4o的预览preview版 本,MindGPT-4o-Audio是一款全双工、低延迟的语音端到端模型,可实现像人类一样"边听边说"的自 然对话,并在语音知识问答、多角色高表现力语音生成、多样风格控制、外部工具调用等方面表现突 出,达到了媲美人人对话的自然交互水平。 核心功能 目前,基于MindGPT-4o-Audio的理想同学已在理想车机及理想同学手机App全量上线。 1. 模型能力 1.1 整体算法方案 MindGPT-4o-Audio是一款级联式的语音端到端大模型,我们提出了感知-理解-生成的一体化端到端流式 生成架构实现全双工、低延迟的语音对话。其中: 在各项权威音频基准测试以及语言理解、逻辑推理、指令遵循等语言理解任务上,MindGPT-4o-Audio 已达到行业领先水平,在语音交互评测基准VoiceBench多类评测中均显著领先行业领先的同类模型。此 外,我们实验发现,业内主流的语音端到端模型一般会在提升语音交互能力的同时,造成语言交互能力 的大幅下降,MindGPT-4o-Audio通过训练策略的优化保 ...