多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位·2026-01-27 10:33

文章核心观点 - 当前主流视觉语言模型中的注意力机制存在结构性偏置,不能可靠地指示语义重要性,若直接用于视觉令牌剪枝会损害模型性能 [2] - 通过一种即插即用的注意力去偏方法,无需修改模型或重新训练,即可有效修正偏置,提升多种剪枝方法的性能与可靠性 [6][7] 注意力机制存在的结构性偏置 - 位置偏置:语言到视觉的注意力权重呈现单调上升趋势,模型更倾向于关注序列靠后的视觉令牌,导致对图像下方区域给予更高但可能无关语义的关注 [3] - 填充区域偏置:由于输入图像尺寸不一,填充区域在注意力计算中经常获得异常高的权重,即“注意力沉没”现象,这会误导剪枝策略保留空白区域 [5] 提出的解决方案:注意力去偏 - 核心思路是对注意力本身进行去偏修正,而非提出新的剪枝方法或引入额外训练 [6] - 方法是通过拟合注意力随令牌位置变化的整体趋势来显式建模位置偏置,并对原始注意力进行修正,同时显式抑制填充区域的注意力贡献 [6] - 该方法是一个即插即用模块,不涉及模型结构修改或重新训练,可在推理阶段直接使用 [6][7] 实验设计与结果 - 实验覆盖了6种主流的基于注意力的视觉令牌剪枝方法,在多个主流视觉语言模型上进行测试,包括7B和13B参数规模的模型 [7] - 评估任务包括10个图像理解任务和3个视频理解任务 [7] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,在更激进的令牌压缩条件下效果尤为明显 [10] - 具体数据示例如下:在7B模型上,FastV方法在VQAv2任务上的得分从73.2提升至76.6;在13B模型上,FastV方法在VQAv2任务上的得分从76.5提升至78.2 [11] 研究结论与意义 - 注意力并非天然等价于语义重要性,忽视其固有结构性偏置会误导基于注意力的剪枝策略,影响模型性能 [12] - 该工作通过简单有效的注意力去偏修正,在不增加训练成本的前提下,显著提升了视觉令牌剪枝的可靠性与泛化能力 [12] - 该研究为多模态模型的高效部署提供了新视角,并为后续设计更稳健的注意力机制奠定了基础 [12]