Workflow
HiDrop
icon
搜索文档
东方理工团队提出HiDrop:重构MLLM计算路径,压缩90%视觉Token实现2.2倍加速
机器之心· 2026-03-23 19:56
多模态大语言模型(MLLM)效率瓶颈与现有方案局限 - 随着多模态大语言模型支持更长上下文,高分辨率图像和长视频产生的视觉Token远多于文本,在自注意力二次复杂度下迅速成为效率瓶颈 [2] - 现有研究通常通过渐进式剪枝来减少视觉Token,但多采用固定策略,忽略了MLLM不同层在多模态处理中的功能差异 [3] MLLM内部信息处理层级机制的核心发现 - 对MLLM内部信息流的分析发现,不同层的功能存在明显差异:浅层主要传递视觉特征,中层进行跨模态融合,而深层则承担语义整合与推理,视觉信息在层间呈现明显的非均匀演化过程 [3] - 浅层阶段,视觉Token表征具有明显的自相似性,跨模态影响可忽略,模型对视觉表征的处理微乎其微,该层主要作为视觉信息的传递通道 [11] - 中层阶段成为跨模态融合的关键,视觉信息开始显著影响文本表示,但此过程具有明显稀疏性,只有少量关键视觉Token产生决定性影响,大量Token相对冗余,因此中层成为视觉Token压缩的关键阶段 [11] - 深层阶段,跨模态融合基本完成,模型进入以抽象语义推理为主的阶段,视觉信息对文本表示的直接影响逐渐减弱 [11] 1) 综合来看,MLLM的信息处理呈现出明显的层级结构:浅层传递信息,中层进行跨模态融合,深层侧重高层语义理解与推理,这一发现为设计更合理的视觉Token压缩策略提供了重要启示 [14] HiDrop方法:三段式层级对齐压缩策略 - 基于对MLLM层级信息处理动态的分析,宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队提出HiDrop框架,通过与模型层级结构对齐的视觉Token压缩策略,在保证性能的同时显著降低计算开销 [3][16] - 浅层采用**视觉延迟注入**:由于浅层对视觉信息处理有限,HiDrop不会在模型输入时立即注入视觉Token,而是延迟到跨模态融合的起始处再引入,在减少计算量的同时几乎不影响性能 [19] - 中层采用**凹金字塔式剪枝**:由于该阶段是跨模态融合关键且视觉Token贡献呈现稀疏性,HiDrop采用激进的凹金字塔式剪枝策略,通过先急后缓的方式减少Token,并引入Differentiable Top-k算子实现自适应选择,在保持关键信息的同时降低计算开销 [20] - 深层采用**视觉提前退出**:当跨模态融合基本完成后,HiDrop在深层提前移除剩余视觉Token,使后续层仅处理融合后的语义表示,从而减少深层注意力计算 [21] - HiDrop结合浅层的延迟注入与深层的提前退出,实际形成了一个聚焦的视觉处理窗口,将视觉Token的计算集中在中间层 [21] HiDrop的实验效果与性能优势 - 在压缩约**90%**的视觉Token的情况下,HiDrop仍能保持**98.3%**的模型性能,并实现**1.72×**的训练加速和**2.2×**的预填充加速 [4] - 在多个多模态基准测试上,当平均保留**64个Token**(压缩率**88.9%**)时,HiDrop能保持**98.3%**的原始性能 [23] - 即使压缩率进一步提升至**91.7%**(平均保留**48个Token**)时,HiDrop的性能仍然超过对比方法PDrop在**88.9%**压缩率下的表现,展现出更优的压缩-性能平衡 [23] - 除了保持性能外,HiDrop显著提升了计算效率,该方法将平均视觉Token数量减少约**90%**,大幅降低了推理FLOPs [24] - 在LLaVA-1.5-7B模型上,HiDrop实现了约**1.7×**的训练加速和**2.2×**的预填充加速 [24]