大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心·2026-01-17 11:24

行业核心问题:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”核心难题,即模型被赋予听觉后,逻辑推理能力会显著衰退[2] - 行业巨头如OpenAI、Google、Meta均面临此挑战,并将其定义为“Intelligence Gap”或“Multimodal Tax”[3] - 具体表现为:GPT-4o在纯文本任务准确率达92%,但在端到端语音模式下得分跌至66%,出现26%的巨大跌幅[3] 现有解决方案的缺陷 - 主流语音大模型采用“语音编码器+适配器+LLM”三段式架构,但引入语音模态后推理能力出现断崖式下跌[10] - 现有修补方法存在缺陷:输入端强行对齐无法解决深层的“表征漂移”问题[11] - 输出端通过监督微调或知识蒸馏的方法属于离线策略,存在“目标不可达”和“Exposure Bias”问题,导致模型容错性差[12][19] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习(具体采用GRPO)的全新对齐框架[7][13] - 核心创新在于不依赖死记硬背的监督微调,而是通过对齐“思维轨迹”来恢复推理表现[7] - 框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[13] 技术细节:TARS的三大创新 - 创新一:表征对齐:计算语音与文本输入下每一层隐藏状态的余弦相似度作为奖励,引导语音分支的思维路径紧跟文本轨迹[15][16] - 创新二:行为对齐:利用外部Embedding模型判断语音推理与文本参考的语义一致性,允许措辞差异,解决了“目标不可达”问题[17][21] - 创新三:非对称奖励与模态归一化:语音分支额外获得对齐奖励以追赶文本;采用模态特定归一化,保证语音分支在困难任务下也能获得持续优化梯度[22][23] 实验结果与性能表现 - 在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构进行实验[25] - 核心战绩:TARS在7B模型上达到了100.45%的模态恢复率,意味着语音推理能力不仅完全恢复,甚至略微超过了文本基座水平[26][33] - 性能对比:TARS在Phi-4-MM上的平均准确率达到79.80%,稳居7B规模模型第一,显著优于SFT、DPO、SALAD、AlignChat等基线方法[26][27][33] - 附加效益:使用TARS训练后,模型的文本准确率也同步提升(Qwen提升2.39%,Phi提升5.43%),证明语音模态学习能增强文本推理能力[28] 行业影响与未来展望 - TARS标志着语音大模型研究的范式转变,证明了On-policy RL在解决模态对齐问题上优于传统的Off-policy方法[30] - 提出的“表征+行为”对齐策略,为打造拥有与纯文本模型同等智商的全能型Omni模型提供了可行路径[31] - 该研究成功消除了模态推理鸿沟,为实现高智商语音交互奠定了基础[31]