VScan - 财报，业绩电话会，研报，新闻

VScan

搜索文档

量子位· 2025-07-04 09:42

核心观点 - 多模态智能面临视觉Token激增导致的算力瓶颈，腾讯AI Lab与CMU提出的VScan通过两阶段剪枝机制实现2.91倍推理加速，几乎不损性能[1][2] - VScan兼容主流视觉语言模型（如LLaVA/Qwen2.5-VL），覆盖图像问答/视频理解等16项任务，最高压缩88.9%视觉Token时性能仅降3.3%[4][31][32] - 该方法突破现有文本无关/文本相关剪枝方法的局限，首次实现跨视觉编码与语言解码阶段的协同优化[8][9][24] 技术背景 - 现有LVLM处理高分辨率图像时视觉Token达2,880-16,384个，自注意力计算复杂度呈平方增长导致显存与计算负担指数级上升[2][3] - 传统剪枝方法分两类：文本无关方法依赖视觉自注意力权重（如VisionZip），文本相关方法基于Token-查询相关性（如SparseVLM），但均缺乏跨阶段分析[8] - 早期剪枝存在位置偏置问题，中间层（第16-20层）才是多模态交互的黄金剪枝时机[18][21][22] 解决方案 - **第一阶段**：视觉编码阶段结合全局扫描（提取语义核心Token）与局部扫描（保留细节Token），通过相似性引导融合被剪Token信息[26][30] - **第二阶段**：语言解码阶段在中间层按注意力强度筛选文本相关Token，避免过早剪枝导致信息损失[27] - 支持FlashAttention与KV Cache压缩，LLaVA-NeXT-7B预填阶段加速达2.91倍，显存占用显著降低[36] 性能验证 - 在LLaVA-1.5-7B上，保留192/128/64个Token（原576个）时平均准确率仅降1.0%/1.2%/3.3%，显著优于VisionZip等基线[31][32] - Qwen2.5-VL-7B处理视觉定位任务时，75%剪枝率下VScan性能保持80.7%，而FastV/PyramidDrop性能腰斩[33][34] - 覆盖3B-32B不同规模模型，在GQA/MMBench等16个数据集上实现零损剪枝至88.9%压缩率[28][29][38] 行业影响 - 为多模态落地提供轻量级解决方案，尤其适合实时工业应用与边缘设备部署[5][38] - 开源方案降低工程门槛，推动社区优化视觉Token效率范式[6][39]

腾讯控股(HK:00700)

视觉语言模型推理加速

Artificial Intelligence

VScan

视觉语言模型推理加速

Artificial Intelligence

VScan