视觉Token
搜索文档
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍
机器之心· 2026-03-15 14:00
背景与动机 - 随着高分辨率图像与长视频处理需求爆发,大型视觉语言模型所需处理的视觉Token数量急剧膨胀,推理效率成为核心瓶颈[4] - 现有基于注意力权重的Token压缩方法存在两个致命缺陷:一是存在位置偏差,倾向于机械保留序列末尾的Token,导致关键的前期Token被丢弃,加剧多模态幻觉[5];二是与FlashAttention等高效算子存在根本性不兼容[7] 核心发现 - **发现一:注意力方法存在系统性末端偏置**。在LLaVA-1.5-7B和Qwen2-VL-7B上的对比显示,注意力方法的Token保留概率曲线呈单调递增阶梯形状,末端Token保留率高达80%~100%,前端仅10%~30%,而L2 Norm变化量评估方法则呈现近似均匀分布[8] - **发现二:变化量高的Token天然对应语义关键区域**。在百事可乐瓶识别、球衣号码识别等样本中,L1 Norm、L2 Norm和余弦相似度三种变化量指标均在答案相关区域出现显著峰值,表明变化量是衡量视觉Token重要性的鲁棒内在属性,其中L2 Norm综合性能最优[12] 解决方案:V²Drop - V²Drop采用多阶段渐进式剪枝策略实现高效无偏Token压缩,包含三步:变化量计算、Token排序与选择、渐进式压缩[15][16][17] - 变化量计算阶段,在每个预定义剪枝层计算每个视觉Token与上一层表示的L2距离作为重要性得分,额外开销仅为单层注意力计算量的0.022%[15] - 渐进式压缩在浅层、中层、深层三阶段依次执行剪枝,形成M → Ka → Kb → Kc渐进压缩路径,消融实验证明其比一次性剪枝在POPE指标上高9.3%、在MME指标上高5.9%[18] 理论保证 - 通过一阶Taylor展开证明,Token的变化量幅度与其对模型输出的影响正相关,从理论上验证了丢弃低变化量Token能最小化输出扰动的核心假设[21] - 模型架构的三大属性(残差连接、Layer Norm、平滑激活函数)共同保证了该理论假设的合理性[21] 实验结果:图像理解 - 在LLaVA-1.5-7B模型上,压缩66.7%的Token(保留192个)时,V²Drop综合性能达到97.6%,超越次优方法PDrop的96.0%[23] - 在Qwen2-VL-7B模型的高分辨率场景中,在66.7%和77.8%两档压缩率下,V²Drop均全面超越FastV和DART方法,尤其在POPE幻觉抑制指标上表现突出[23] - 根据表1数据,在LLaVA-1.5-7B上保留192个Token时,V²Drop在POPE指标上达到85.1,在MME指标上达到1826,平均性能为97.6%[24] 实验结果:视频理解 - 在LLaVA-OV-7B模型上,V²Drop仅保留25%的Token时,综合性能即达到98.6%,超越保留30% Token的DyCoke方法(97.7%)[25] - 在Qwen2-VL-7B模型上,仅保留20% Token时,V²Drop综合性能达到93.3%,其中在MVBench基准上以62.1分大幅领先DART的58.9分和FastV的50.9分[25] - 根据表4数据,在LLaVA-OV-7B上保留25% Token时,V²Drop在MVBench Overall指标上达到56.4,在VideoMME Long指标上达到49.6,平均性能为98.6%[26] 实验结果:效率分析 - 在图文理解任务(LLaVA-1.5-7B)中,V²Drop使LLM生成延迟降低31.5%,吞吐量提升至9.01 items/s(提升1.26倍),峰值显存下降3.3%[27] - 在视频理解任务(LLaVA-OV-7B)中,V²Drop使LLM生成延迟大幅削减74.2%,吞吐量提升1.38倍,峰值显存降低7.8%[27] - 与之形成对比,SparseVLM、FastV、PDrop在视频场景下峰值显存分别暴增54.8%、39.2%和37.8%,而V²Drop无需计算注意力矩阵,实现了加速与节存的双重收益[28] - 根据表5数据,在LLaVA-OV-7B视频任务中,V²Drop的LLM生成延迟为193.8秒,比基准降低74.2%,总延迟为23分13秒,降低27.5%[29] 结论 - V²Drop为视觉语言模型的推理加速开辟了一条全新路径,其核心洞察是视觉Token在LLM各层间的变化量与其任务相关性高度吻合,且这一规律与具体任务无关[31] - 该方法以变化量为核心评估信号,构建了一套轻量、渐进、与高效算子完全兼容的Token压缩框架,无需修改模型权重,无需访问注意力矩阵,即插即用[31] - 在图像与视频理解两条赛道上,V²Drop均实现了当前最优的性能-效率权衡[31]
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]