多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正
36氪·2026-01-27 16:15

行业研究:多模态模型效率优化 - 当前,视觉语言模型在多模态理解任务中取得了显著进展,模型通常通过语言到视觉的注意力机制来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝,以降低推理成本、提升运行效率 [1] - 然而,一个长期被忽视的关键问题是:注意力本身可能并非“语义重要性”的可靠指标,如果直接使用这些带有偏置的注意力进行视觉标记剪枝,往往会无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息 [1] 核心问题:注意力机制的结构性偏置 - 研究发现,主流视觉语言模型中的注意力行为受到显著的结构性偏置影响,而非仅由语义决定 [1] - 位置偏置:注意力更偏爱“后面的标记”,呈现出明显的单调上升趋势,这意味着模型更倾向于关注序列靠后的视觉标记,在图像中往往表现为对图像下方区域给予更高的注意力,这种偏好与图像语义本身没有直接关系 [2] - 填充区域注意力汇:由于输入图像尺寸不一致,填充是常见操作,但研究发现这些语义上无用的填充区域对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发“注意力汇”现象,这会直接误导基于注意力的剪枝策略 [4] 解决方案:注意力去偏修正方法 - 针对上述问题,研究团队的核心思路是对注意力本身进行去偏,而非提出新的剪枝方法或引入额外训练 [5] - 核心观察是,注意力中的偏置呈现出稳定、可建模的整体趋势,因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素 [5] - 对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰,整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用 [5] 实验验证与性能提升 - 该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估,实验覆盖6种剪枝基线方法,在多个主流视觉语言模型(7B/13B参数规模)上进行测试,并验证于10个图像理解任务3个视频理解任务 [8] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显 [8] - 具体数据表明,在LLaVA-v1.5-7B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从73.2提升至76.6,在GQA任务上从55.8提升至59.3,在MME任务上从1442.3提升至1499.5 [10] - 在LLaVA-v1.5-13B模型上,应用去偏方法后,FastV方法在VQAv2任务上的准确率从76.5提升至78.2,在GQA任务上从59.1提升至60.9 [10] 研究结论与行业意义 - 研究结果表明,注意力并非天然等价于语义重要性,在视觉语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能 [12] - 通过对注意力进行简单而有效的去偏修正,可以在不引入额外训练成本的前提下,显著提升视觉标记剪枝的可靠性与泛化能力,该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础 [12]