Workflow
MLLM Token Compression
icon
搜索文档
关于多模态大模型Token压缩技术进展,看这一篇就够了
机器之心· 2026-01-26 12:08
多模态大模型Token压缩技术综述 - 多模态大模型在处理高分辨率图像和长视频时,会产生成千上万个视觉token,导致极高的显存占用和延迟,限制了模型的可扩展性和本地部署 [2] - 为解决此问题,MLLM Token Compression(多模态大模型Token压缩)技术迅速成为研究热点,两年内该垂直领域产出了约200篇论文 [2] - 来自北京大学、中国科学技术大学等机构的研究人员对该领域方法进行了系统性梳理,旨在为特定部署场景选择压缩机制提供指导 [2] 基于压缩位置的系统分类 - 研究人员根据Token压缩方法在MLLM架构中应用的位置,将现有方法系统性地分为三类:在视觉编码器、投影器和大语言模型模块中进行压缩 [7] - 在视觉编码器阶段进行压缩可以降低视觉感知阶段的计算开销 [7] - 在投影器阶段整合Token削减技术,是在从视觉表示空间向语言表示空间转换的过程中进行压缩 [7] - 在大语言模型阶段进行压缩可实现整体的跨模态效率优化 [11] 视觉编码器模块的压缩策略 - 在视觉编码器模块应用的Token压缩方法分为两大类:视觉编码器内部压缩和视觉编码器外部压缩 [9] - 视觉编码器内部压缩往往通过开发多尺度压缩方案来协调各层之间的压缩,因为不同层会捕捉从低层纹理到高层概念的不同尺度视觉信息 [9] - 视觉编码器外部压缩设计具有即插即用的特点,对原始架构改动极小,并且可以根据是否引入文本信号进行灵活设计 [9] 投影器模块的压缩策略 - 投影器模块作为一个接口,将原始的视觉嵌入转换为与语言兼容的表示形式,确保视觉编码器提取的信息能被大语言模型有效利用 [13] - 早期投影器架构(如Q-Former)通过将大量视觉嵌入提炼为一组紧凑的查询Token来实现高效压缩 [13] - 后续研究为投影器引入了额外的设计增强,以实现更细粒度和任务自适应的压缩,方法大致分为基于变换的方法、基于查询的方法和重要性驱动的方法 [13] 大语言模型模块的压缩策略 - 由于大语言模型的参数量通常远超视觉编码器和投影器,是性能瓶颈的关键组件,在此阶段进行高效压缩会产生直接收益 [15] - MLLM早期发展关注短文本视觉问答,因此压缩策略专注于预填充阶段,在输入序列第一次前向传播时就对视觉token进行压缩 [15] - 随着思维链技术的发展,研究重心转向长视觉问答场景,技术通常在解码阶段选择性地剪枝或合并KV Cache来降低内存和计算成本 [15] 跨模块混合压缩策略 - 近期方法开始探索跨多个模块的压缩策略,以实现更高的压缩效率和更优的表征质量 [16] - 这类方法主要关注如何协调不同组件之间的压缩,并将其组织为一个多阶段过程 [16] - 研究人员详细介绍了两种新兴的设计范式:多模块协同压缩以及多阶段渐进式压缩 [16] 针对特定部署场景的选择指南 - 针对视频输入,最近的研究提出了时空增强的Token压缩方法,这些方法明确考虑了时间结构,以实现高效的长序列建模 [19] - 现有方法根据是否利用文本信息可分为纯视觉压缩和文本引导压缩,这两种策略是互补的 [20] - Token合并适用于密集或在时间上冗余的视觉输入,而Token丢弃在高层语义已足够稀疏时效率更具优势 [21] - 即插即用方法适合训练资源有限或任务需求温和的情况,便于快速部署和推理加速,但性能上限相对有限 [22] - 重训练方法在细粒度多模态理解方面表现优异,能够提供更高的性能上限,但代价是大量的额外训练开销 [22] - 原则上所有可用于大语言模型预填充的加速推理策略也可用于加速训练,但大多数先进的多模态大模型仍使用最简单的Token压缩机制 [23] 当前挑战与未来方向 - 尽管多模态大模型的Token压缩技术取得了快速进展,但仍有若干开放性挑战,如缺乏理论辅助、缺乏任务与内容感知的自适应性、实际细粒度感知的任务性能下降等 [24] - 该综述后续将保持更新,计划在v2版本中整理Token压缩研究中常用的图像和视频理解基准测试,并据此构建一个全面的评估框架 [25]