Workflow
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
量子位·2025-07-16 09:49

开源共情语音模型OpenS2S - 紫东太初团队联合长城汽车AI Lab推出完全开源的端到端共情语音语言大模型OpenS2S,技术栈完全透明[2] - 核心目标是提供高效、低成本构建共情语音系统的新范式,包含训练数据集、构建代码、模型权重等全资源开源[3] - 采用流式交错解码架构实现低延迟实时语音生成,自动化数据生成方法结合LLMs与可控TTS技术构建多情感语料[3] 技术架构与核心组件 - 模块化设计包含四大组件:基于Qwen2-Audio的音频编码器、Qwen3-8B-Instruct指令LLM、流式语音解码器(借鉴Minmo/LLaMA-Omni2)、Token2Wav解码器(采用GLM-4-Voice预训练组件)[9] - 数据构建流程:LLMs生成共情对话→语音克隆增加说话者多样性→InstructTTS精准控制情感表达,实现低成本高质量数据合成[11][12] - 三阶段训练流程:语音理解预训练→语音生成预训练→共情指令微调,提升语义与非语言线索感知能力[14] 性能表现与行业对比 - 在VoiceBench评测中,OpenS2S语音到文本表现仅次于Kimi-Audio(61.10分),优于GLM-4-Voice(25.92分)和LLaMA-Omni24(17.36分),其中ifeval子项达42.89分[19][21] - URO-Bench共情评估中,OpenS2S在underemo-en(46.90分)和underemo-zh(67.68分)表现优于部分竞品,验证数据生成方法有效性[19][20] - 开源程度显著领先:唯一提供完整训练数据、预训练代码和微调代码的模型,而LLaMA-Omni2/Qwen2-Audio等竞品均未开源关键组件[5] 行业影响与资源发布 - 完整开源模型权重、数据集代码、评估工具等核心资源,推动共情语音LSLMs领域透明化研究[7] - 提供论文、Demo、代码及数据集的公开访问链接,覆盖arXiv、GitHub、Hugging Face等平台[23]