Workflow
VScan
icon
搜索文档
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 09:42
核心观点 - 多模态智能面临视觉Token激增导致的算力瓶颈,腾讯AI Lab与CMU提出的VScan通过两阶段剪枝机制实现2.91倍推理加速,几乎不损性能[1][2] - VScan兼容主流视觉语言模型(如LLaVA/Qwen2.5-VL),覆盖图像问答/视频理解等16项任务,最高压缩88.9%视觉Token时性能仅降3.3%[4][31][32] - 该方法突破现有文本无关/文本相关剪枝方法的局限,首次实现跨视觉编码与语言解码阶段的协同优化[8][9][24] 技术背景 - 现有LVLM处理高分辨率图像时视觉Token达2,880-16,384个,自注意力计算复杂度呈平方增长导致显存与计算负担指数级上升[2][3] - 传统剪枝方法分两类:文本无关方法依赖视觉自注意力权重(如VisionZip),文本相关方法基于Token-查询相关性(如SparseVLM),但均缺乏跨阶段分析[8] - 早期剪枝存在位置偏置问题,中间层(第16-20层)才是多模态交互的黄金剪枝时机[18][21][22] 解决方案 - **第一阶段**:视觉编码阶段结合全局扫描(提取语义核心Token)与局部扫描(保留细节Token),通过相似性引导融合被剪Token信息[26][30] - **第二阶段**:语言解码阶段在中间层按注意力强度筛选文本相关Token,避免过早剪枝导致信息损失[27] - 支持FlashAttention与KV Cache压缩,LLaVA-NeXT-7B预填阶段加速达2.91倍,显存占用显著降低[36] 性能验证 - 在LLaVA-1.5-7B上,保留192/128/64个Token(原576个)时平均准确率仅降1.0%/1.2%/3.3%,显著优于VisionZip等基线[31][32] - Qwen2.5-VL-7B处理视觉定位任务时,75%剪枝率下VScan性能保持80.7%,而FastV/PyramidDrop性能腰斩[33][34] - 覆盖3B-32B不同规模模型,在GQA/MMBench等16个数据集上实现零损剪枝至88.9%压缩率[28][29][38] 行业影响 - 为多模态落地提供轻量级解决方案,尤其适合实时工业应用与边缘设备部署[5][38] - 开源方案降低工程门槛,推动社区优化视觉Token效率范式[6][39]