HiDrop - 财报，业绩电话会，研报，新闻

HiDrop

搜索文档

东方理工团队提出HiDrop：重构MLLM计算路径，压缩90%视觉Token实现2.2倍加速

机器之心· 2026-03-23 19:56

多模态大语言模型（MLLM）效率瓶颈与现有方案局限 - 随着多模态大语言模型支持更长上下文，高分辨率图像和长视频产生的视觉Token远多于文本，在自注意力二次复杂度下迅速成为效率瓶颈 [2] - 现有研究通常通过渐进式剪枝来减少视觉Token，但多采用固定策略，忽略了MLLM不同层在多模态处理中的功能差异 [3] MLLM内部信息处理层级机制的核心发现 - 对MLLM内部信息流的分析发现，不同层的功能存在明显差异：浅层主要传递视觉特征，中层进行跨模态融合，而深层则承担语义整合与推理，视觉信息在层间呈现明显的非均匀演化过程 [3] - 浅层阶段，视觉Token表征具有明显的自相似性，跨模态影响可忽略，模型对视觉表征的处理微乎其微，该层主要作为视觉信息的传递通道 [11] - 中层阶段成为跨模态融合的关键，视觉信息开始显著影响文本表示，但此过程具有明显稀疏性，只有少量关键视觉Token产生决定性影响，大量Token相对冗余，因此中层成为视觉Token压缩的关键阶段 [11] - 深层阶段，跨模态融合基本完成，模型进入以抽象语义推理为主的阶段，视觉信息对文本表示的直接影响逐渐减弱 [11] 1) 综合来看，MLLM的信息处理呈现出明显的层级结构：浅层传递信息，中层进行跨模态融合，深层侧重高层语义理解与推理，这一发现为设计更合理的视觉Token压缩策略提供了重要启示 [14] HiDrop方法：三段式层级对齐压缩策略 - 基于对MLLM层级信息处理动态的分析，宁波东方理工大学/宁波数字孪生（东方理工）研究院沈晓宇团队提出HiDrop框架，通过与模型层级结构对齐的视觉Token压缩策略，在保证性能的同时显著降低计算开销 [3][16] - 浅层采用**视觉延迟注入**：由于浅层对视觉信息处理有限，HiDrop不会在模型输入时立即注入视觉Token，而是延迟到跨模态融合的起始处再引入，在减少计算量的同时几乎不影响性能 [19] - 中层采用**凹金字塔式剪枝**：由于该阶段是跨模态融合关键且视觉Token贡献呈现稀疏性，HiDrop采用激进的凹金字塔式剪枝策略，通过先急后缓的方式减少Token，并引入Differentiable Top-k算子实现自适应选择，在保持关键信息的同时降低计算开销 [20] - 深层采用**视觉提前退出**：当跨模态融合基本完成后，HiDrop在深层提前移除剩余视觉Token，使后续层仅处理融合后的语义表示，从而减少深层注意力计算 [21] - HiDrop结合浅层的延迟注入与深层的提前退出，实际形成了一个聚焦的视觉处理窗口，将视觉Token的计算集中在中间层 [21] HiDrop的实验效果与性能优势 - 在压缩约**90%**的视觉Token的情况下，HiDrop仍能保持**98.3%**的模型性能，并实现**1.72×**的训练加速和**2.2×**的预填充加速 [4] - 在多个多模态基准测试上，当平均保留**64个Token**（压缩率**88.9%**）时，HiDrop能保持**98.3%**的原始性能 [23] - 即使压缩率进一步提升至**91.7%**（平均保留**48个Token**）时，HiDrop的性能仍然超过对比方法PDrop在**88.9%**压缩率下的表现，展现出更优的压缩-性能平衡 [23] - 除了保持性能外，HiDrop显著提升了计算效率，该方法将平均视觉Token数量减少约**90%**，大幅降低了推理FLOPs [24] - 在LLaVA-1.5-7B模型上，HiDrop实现了约**1.7×**的训练加速和**2.2×**的预填充加速 [24]