Token压缩 - 财报，业绩电话会，研报，新闻

Token压缩

搜索文档

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

机器之心· 2026-03-15 14:00

背景与动机 - 随着高分辨率图像与长视频处理需求爆发，大型视觉语言模型所需处理的视觉Token数量急剧膨胀，推理效率成为核心瓶颈[4] - 现有基于注意力权重的Token压缩方法存在两个致命缺陷：一是存在位置偏差，倾向于机械保留序列末尾的Token，导致关键的前期Token被丢弃，加剧多模态幻觉[5]；二是与FlashAttention等高效算子存在根本性不兼容[7] 核心发现 - **发现一：注意力方法存在系统性末端偏置**。在LLaVA-1.5-7B和Qwen2-VL-7B上的对比显示，注意力方法的Token保留概率曲线呈单调递增阶梯形状，末端Token保留率高达80%～100%，前端仅10%～30%，而L2 Norm变化量评估方法则呈现近似均匀分布[8] - **发现二：变化量高的Token天然对应语义关键区域**。在百事可乐瓶识别、球衣号码识别等样本中，L1 Norm、L2 Norm和余弦相似度三种变化量指标均在答案相关区域出现显著峰值，表明变化量是衡量视觉Token重要性的鲁棒内在属性，其中L2 Norm综合性能最优[12] 解决方案：V²Drop - V²Drop采用多阶段渐进式剪枝策略实现高效无偏Token压缩，包含三步：变化量计算、Token排序与选择、渐进式压缩[15][16][17] - 变化量计算阶段，在每个预定义剪枝层计算每个视觉Token与上一层表示的L2距离作为重要性得分，额外开销仅为单层注意力计算量的0.022%[15] - 渐进式压缩在浅层、中层、深层三阶段依次执行剪枝，形成M → Ka → Kb → Kc渐进压缩路径，消融实验证明其比一次性剪枝在POPE指标上高9.3%、在MME指标上高5.9%[18] 理论保证 - 通过一阶Taylor展开证明，Token的变化量幅度与其对模型输出的影响正相关，从理论上验证了丢弃低变化量Token能最小化输出扰动的核心假设[21] - 模型架构的三大属性（残差连接、Layer Norm、平滑激活函数）共同保证了该理论假设的合理性[21] 实验结果：图像理解 - 在LLaVA-1.5-7B模型上，压缩66.7%的Token（保留192个）时，V²Drop综合性能达到97.6%，超越次优方法PDrop的96.0%[23] - 在Qwen2-VL-7B模型的高分辨率场景中，在66.7%和77.8%两档压缩率下，V²Drop均全面超越FastV和DART方法，尤其在POPE幻觉抑制指标上表现突出[23] - 根据表1数据，在LLaVA-1.5-7B上保留192个Token时，V²Drop在POPE指标上达到85.1，在MME指标上达到1826，平均性能为97.6%[24] 实验结果：视频理解 - 在LLaVA-OV-7B模型上，V²Drop仅保留25%的Token时，综合性能即达到98.6%，超越保留30% Token的DyCoke方法（97.7%）[25] - 在Qwen2-VL-7B模型上，仅保留20% Token时，V²Drop综合性能达到93.3%，其中在MVBench基准上以62.1分大幅领先DART的58.9分和FastV的50.9分[25] - 根据表4数据，在LLaVA-OV-7B上保留25% Token时，V²Drop在MVBench Overall指标上达到56.4，在VideoMME Long指标上达到49.6，平均性能为98.6%[26] 实验结果：效率分析 - 在图文理解任务（LLaVA-1.5-7B）中，V²Drop使LLM生成延迟降低31.5%，吞吐量提升至9.01 items/s（提升1.26倍），峰值显存下降3.3%[27] - 在视频理解任务（LLaVA-OV-7B）中，V²Drop使LLM生成延迟大幅削减74.2%，吞吐量提升1.38倍，峰值显存降低7.8%[27] - 与之形成对比，SparseVLM、FastV、PDrop在视频场景下峰值显存分别暴增54.8%、39.2%和37.8%，而V²Drop无需计算注意力矩阵，实现了加速与节存的双重收益[28] - 根据表5数据，在LLaVA-OV-7B视频任务中，V²Drop的LLM生成延迟为193.8秒，比基准降低74.2%，总延迟为23分13秒，降低27.5%[29] 结论 - V²Drop为视觉语言模型的推理加速开辟了一条全新路径，其核心洞察是视觉Token在LLM各层间的变化量与其任务相关性高度吻合，且这一规律与具体任务无关[31] - 该方法以变化量为核心评估信号，构建了一套轻量、渐进、与高效算子完全兼容的Token压缩框架，无需修改模型权重，无需访问注意力矩阵，即插即用[31] - 在图像与视频理解两条赛道上，V²Drop均实现了当前最优的性能-效率权衡[31]

关于端侧大模型芯片化的若干趋势思考......

自动驾驶之心· 2025-10-23 08:04

文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计，当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行，但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系，对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平，RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈，DSA、MoBA等技术是典型代表，今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言，注意力机制变体影响有限，只要算子可融合则计算效率依然高，通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家，14B稠密模型与30B-A3B稀疏模型相比，后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显，但多batch decode阶段带宽需求几乎等同于30B稠密模型，此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型（100B-A6.1B及端侧16B-A1.4B）展现出稀疏性加大趋势，未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点，例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代，端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性：权重专用量化（如GPTQ、AWQ）以解决decode带宽瓶颈；低精度浮点与定点数两条技术路线；细粒度量化提升精度；动态与静态量化的权衡 [11][12] - 混合量化是未来趋势，尤其适合处理大模型层内层间数值不平衡问题，在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛，视觉Token数量远超文本Token且冗余度高，是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言，Token压缩技术是纯收益，能够直接降低计算量 [14]