大模型听懂语音却变笨？港中深与微软联合解决语音大模型降智问题

行业核心痛点：语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”，即当大语言模型接收语音输入时，其逻辑推理能力相比纯文本输入会显著衰退[3] - 行业主流的三段式“语音编码器+适配器+LLM”架构，在引入语音模态后出现了推理能力的断崖式下跌[8] - 此难题是OpenAI、Google、Meta等科技巨头共同试图跨越的技术天花板[3] 现有解决方案的缺陷 - 输入端强行对齐方法无法解决深层的“表征漂移”问题，语音激发的隐藏状态会随网络层数加深而偏离文本的思考轨迹[8] - 输出端通过监督微调或知识蒸馏的“死记硬背”方法属于离线策略，存在模仿静态数据分布、无法泛化到新任务等根本缺陷[8] 创新解决方案：TARS框架 - 香港中文大学（深圳）与微软团队联合提出TARS，这是一个基于强化学习的新对齐框架，旨在解决模态推理鸿沟[7] - 核心洞察是采用On-policy强化学习，让模型在“思考过程”中动态对齐文本的思维轨迹，而非对齐具体的输出字词[9] - 该框架包含三大关键创新：表征对齐、行为对齐、以及非对称奖励与模态归一化[11][12][13] TARS的技术创新细节 - 创新一“表征对齐”直接从模型内部入手，解决与“表征漂移”相关的鸿沟问题[11] - 创新二“行为对齐”在输出端引入了比监督微调更灵活的对齐标准[12] - 创新三包括“非对称奖励”和“模态特定归一化”，后者将语音与文本分支的奖励分开归一化，确保语音分支在困难任务下也能获得持续优化梯度[13][14] 实验验证与性能表现 - 实验在UnifiedQA数据集上训练，并在MMSU和OBQA两个高难度语音推理榜单上验证，基于Qwen2.5-Omni和Phi-4-MM架构[14] - 核心战绩显示，TARS成功将语音输入的推理表现100%恢复甚至超越了纯文本基座水平[7] - 具体数据：TARS在Phi-4-MM架构上实现了100.45%的MRR，在Qwen2.5-Omni架构上实现了98.89%的MRR[15] - 在Phi-4-MM的消融实验中，TARS的MRR达到100.28%，平均准确率在MMSU和OBQA上分别达到79.57%和83.56%[16] - 训练后，模型的文本准确率也同步提升，Qwen架构提升2.39%，Phi架构提升5.43%，证明语音模态学习能反哺增强文本推理能力[16] 行业意义与范式转变 - TARS的提出标志着语音大模型研究的一个转折点，证明了On-policy强化学习在解决模态对齐问题上优于传统的离线策略方法[17] - 其“表征+行为”的对齐策略，为消除模态推理鸿沟提供了有效路径[17] - 该研究证明语音大模型完全可以拥有和纯文本模型同等的推理能力，为打造高智商的全能型Omni模型提供了可行方案[17]