Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

研究核心观点 - 视觉-语言模型（VLMs）中广泛用于指导视觉token剪枝的注意力机制存在系统性偏置，并非可靠的语义重要性指标，这影响了模型高效部署的可靠性[2][5] - 上海大学与南开大学的研究团队提出了一种无需重新训练的注意力去偏方法，通过修正位置偏置和抑制padding token影响，能作为即插即用模块提升多种主流剪枝方法的性能与稳定性[6][17] - 实验表明，该方法在图像与视频理解的多项基准测试中，对LLaVA-7B/13B等主流模型及六种剪枝策略均带来了一致且稳定的性能提升，尤其在激进剪枝场景下效果显著[21][25] 研究意义 - 视觉-语言模型在图像理解、视觉问答等任务中表现出色，但面临推理成本高、速度慢的现实部署挑战[5] - 为提升效率，行业普遍采用视觉token剪枝技术，并依赖注意力机制作为判断视觉信息重要性的核心依据[5] - 研究发现，注意力机制受到与真实语义无关的结构性偏置影响，若直接用于剪枝会误导结果，影响模型性能[5] 研究背景 - 直觉上，注意力机制被理解为“模型更关注哪里”，常被视为语义重要性的体现[10] - 研究揭示了VLMs中注意力存在的两类典型系统性偏置：1) 位置偏置（近因偏置），即模型更倾向于关注序列中靠后（如图像下方）的token；2) 由padding引发的“注意力沉没”现象，即语义空白的填充区域因隐藏状态异常激活而获得高注意力[11][14] - 当这些有偏的注意力被用于剪枝排序时，偏置不仅不会被削弱，反而会被放大，导致剪枝结果偏离真实语义需求[16] 研究方法 - 研究团队未提出新剪枝算法或修改模型结构，而是从修正注意力本身出发[17] - 方法核心是观察到注意力偏置呈现稳定的整体趋势，通过拟合注意力随token位置变化的趋势曲线来构建并修正“位置偏置”[17] - 在剪枝阶段显式抑制padding token的影响，避免空白区域干扰排序[17] - 整个去偏过程无需重新训练模型，也不依赖特定剪枝策略，可作为即插即用模块集成到现有方法中[17] 实验结果 - 方法被集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6种主流基于注意力的剪枝方法中，并在10个图像理解基准和3个视频理解基准上进行了系统评估[21] - 在LLaVA-7B模型上，应用去偏方法后，各剪枝策略在多项指标上获得提升。例如，FastV方法在VQAv2基准上的得分从73.2提升至76.6，在MME基准上从1442.3提升至1499.5；PyramidDrop在POPE基准上从80.8提升至84.3[22] - 在LLaVA-13B模型上同样观察到一致提升，例如TokenCarve方法在VQAv2基准上从77.6提升至78.6，在MME基准上从1500.5提升至1523.7[22] - 在视频理解基准（如MSRVTT、MSVD、TGIF）上，去偏方法也为各剪枝策略带来了准确性（Acc）和得分（Score）的普遍提升[25] - 可视化分析证实，去偏后模型保留的视觉区域更集中于目标物体及关键细节，减少了无关背景和padding区域的干扰，提升了剪枝的合理性与可解释性[25]