Workflow
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心·2025-06-17 12:50

语音大模型技术综述 核心观点 - 语音语言模型(SpeechLM)通过端到端处理实现自然语音交互,突破传统ASR-LLM-TTS流程的三大痛点:信息丢失、延迟严重、错误累积 [4][5][6] - 该技术由香港中文大学团队系统梳理,形成领域首篇ACL 2025收录的综述论文,包含技术架构、训练策略、评估体系等完整框架 [1][31] 技术架构 核心组件 - 语音分词器:分为语义理解型/声学生成型/混合型三类,实现音频信号到token的转换 [16] - 语言模型:基于Transformer的自回归架构,扩展词汇表处理多模态token [16] - 声码器:将语言模型输出token转换为可听波形,完成最终语音生成 [16] 交互范式 - 全双工建模技术实现实时交互,包含用户中断能力和同时响应能力两大特性 [18] - 流式处理架构支持双向同时通信,突破传统"你说完我再说"的交互模式 [17][18] 训练策略 三阶段流程 - 预训练阶段:冷启动或基于文本语言模型继续预训练,关键在文本-语音表示空间对齐 [12] - 指令微调阶段:通过大规模指令数据集赋予多样化任务处理能力 [13] - 后对齐阶段:采用人类反馈强化学习优化输出质量与安全性 [14] 应用场景 语义相关 - 统一框架支持语音对话/翻译/识别/关键词检测等任务,无需单独训练专用模型 [20] 说话人相关 - 实现说话人识别/验证/分离,支持特定音色语音生成,推动个性化语音助手发展 [21] 副语言学 - 识别情绪状态并生成对应情感色彩的语音,增强交互生动性 [22] 评估体系 多维指标 - 自动评估覆盖表示质量/语言学能力/生成质量等6大维度,建立客观比较基准 [25] - 人工评估采用MOS评分,主观衡量自然度/韵律质量/音色相似度等感知特征 [26] 发展挑战 技术瓶颈 - 需解决组件选择优化/端到端训练/实时生成等技术难题,特别关注安全防护机制建设 [28][29] - 资源稀缺语言支持是推动技术普惠的关键方向 [29]