TARS
搜索文档
大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
新浪财经· 2026-01-19 13:48
行业核心痛点:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”,即当大语言模型接收语音输入时,其逻辑推理能力相比纯文本输入会显著衰退[3] - 行业主流的三段式“语音编码器+适配器+LLM”架构,在引入语音模态后出现了推理能力的断崖式下跌[8] - 此难题是OpenAI、Google、Meta等科技巨头共同试图跨越的技术天花板[3] 现有解决方案的缺陷 - 输入端强行对齐方法无法解决深层的“表征漂移”问题,语音激发的隐藏状态会随网络层数加深而偏离文本的思考轨迹[8] - 输出端通过监督微调或知识蒸馏的“死记硬背”方法属于离线策略,存在模仿静态数据分布、无法泛化到新任务等根本缺陷[8] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习的新对齐框架,旨在解决模态推理鸿沟[7] - 核心洞察是采用On-policy强化学习,让模型在“思考过程”中动态对齐文本的思维轨迹,而非对齐具体的输出字词[9] - 该框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[11][12][13] TARS的技术创新细节 - 创新一“表征对齐”直接从模型内部入手,解决与“表征漂移”相关的鸿沟问题[11] - 创新二“行为对齐”在输出端引入了比监督微调更灵活的对齐标准[12] - 创新三包括“非对称奖励”和“模态特定归一化”,后者将语音与文本分支的奖励分开归一化,确保语音分支在困难任务下也能获得持续优化梯度[13][14] 实验验证与性能表现 - 实验在UnifiedQA数据集上训练,并在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构[14] - 核心战绩显示,TARS成功将语音输入的推理表现100%恢复甚至超越了纯文本基座水平[7] - 具体数据:TARS在Phi-4-MM架构上实现了100.45%的MRR,在Qwen2.5-Omni架构上实现了98.89%的MRR[15] - 在Phi-4-MM的消融实验中,TARS的MRR达到100.28%,平均准确率在MMSU和OBQA上分别达到79.57%和83.56%[16] - 训练后,模型的文本准确率也同步提升,Qwen架构提升2.39%,Phi架构提升5.43%,证明语音模态学习能反哺增强文本推理能力[16] 行业意义与范式转变 - TARS的提出标志着语音大模型研究的一个转折点,证明了On-policy强化学习在解决模态对齐问题上优于传统的离线策略方法[17] - 其“表征+行为”的对齐策略,为消除模态推理鸿沟提供了有效路径[17] - 该研究证明语音大模型完全可以拥有和纯文本模型同等的推理能力,为打造高智商的全能型Omni模型提供了可行方案[17]
大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心· 2026-01-17 11:24
行业核心问题:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”核心难题,即模型被赋予听觉后,逻辑推理能力会显著衰退[2] - 行业巨头如OpenAI、Google、Meta均面临此挑战,并将其定义为“Intelligence Gap”或“Multimodal Tax”[3] - 具体表现为:GPT-4o在纯文本任务准确率达92%,但在端到端语音模式下得分跌至66%,出现26%的巨大跌幅[3] 现有解决方案的缺陷 - 主流语音大模型采用“语音编码器+适配器+LLM”三段式架构,但引入语音模态后推理能力出现断崖式下跌[10] - 现有修补方法存在缺陷:输入端强行对齐无法解决深层的“表征漂移”问题[11] - 输出端通过监督微调或知识蒸馏的方法属于离线策略,存在“目标不可达”和“Exposure Bias”问题,导致模型容错性差[12][19] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习(具体采用GRPO)的全新对齐框架[7][13] - 核心创新在于不依赖死记硬背的监督微调,而是通过对齐“思维轨迹”来恢复推理表现[7] - 框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[13] 技术细节:TARS的三大创新 - **创新一:表征对齐**:计算语音与文本输入下每一层隐藏状态的余弦相似度作为奖励,引导语音分支的思维路径紧跟文本轨迹[15][16] - **创新二:行为对齐**:利用外部Embedding模型判断语音推理与文本参考的语义一致性,允许措辞差异,解决了“目标不可达”问题[17][21] - **创新三:非对称奖励与模态归一化**:语音分支额外获得对齐奖励以追赶文本;采用模态特定归一化,保证语音分支在困难任务下也能获得持续优化梯度[22][23] 实验结果与性能表现 - 在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构进行实验[25] - **核心战绩**:TARS在7B模型上达到了100.45%的模态恢复率,意味着语音推理能力不仅完全恢复,甚至略微超过了文本基座水平[26][33] - **性能对比**:TARS在Phi-4-MM上的平均准确率达到79.80%,稳居7B规模模型第一,显著优于SFT、DPO、SALAD、AlignChat等基线方法[26][27][33] - **附加效益**:使用TARS训练后,模型的文本准确率也同步提升(Qwen提升2.39%,Phi提升5.43%),证明语音模态学习能增强文本推理能力[28] 行业影响与未来展望 - TARS标志着语音大模型研究的范式转变,证明了On-policy RL在解决模态对齐问题上优于传统的Off-policy方法[30] - 提出的“表征+行为”对齐策略,为打造拥有与纯文本模型同等智商的全能型Omni模型提供了可行路径[31] - 该研究成功消除了模态推理鸿沟,为实现高智商语音交互奠定了基础[31]