VLA-Pruner：面向高效VLA推理的时序感知视觉token剪枝

研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向，能整合视觉感知、语言理解和动作执行，但处理连续视觉流时计算开销巨大，视觉Token数量通常是文本Token的一个数量级，严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token，但VLA模型存在双系统本质，高层语义理解与底层动作执行对视觉信息需求截然不同，导致现有方法过度偏向保留语义相关Token，却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%，甚至低于30%，直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性，连续时序的动作解码注意力高度重叠，这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计：VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则，兼顾语义与动作需求，语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性，动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略，遵循最小冗余-最大相关性原则，先进行双级Top-k筛选得到语义候选集和动作候选集，再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制，窗口大小设为3，衰减率设为0.8，既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下，最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证：性能与效率的双重突破 - 在50%剪枝率下，VLA-Pruner不仅无性能损失，还能提升成功率，OpenVLA平均提升2.45%，OpenVLA-OFT提升1.05%，原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下，VLA-Pruner仍保持88.9%和88.27%的相对性能，远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下，整体成功率达96.8%，显著高于FastV的73.1%和VLA-Cache的77.2%，证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上，50%剪枝率下平均成功率达100.89%，87.5%剪枝率仍保持87.97%，验证跨架构适配性 [20] - 效率方面，50%剪枝率下FLOPs降至原生模型的60%左右，87.5%剪枝率降至30%左右，最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性，仅语义准则导致动作操控精度下降，仅动作准则牺牲任务规划能力，两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优，w=1性能下降，证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率，层数过浅导致特征提取不充分，过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性，提出语义加动作双级剪枝准则，解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性，通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架，在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑，结合量化、层剪枝等技术提升部署效率，扩展至多模态视觉输入的Token剪枝 [31]