Workflow
视觉Token剪枝
icon
搜索文档
VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心· 2025-11-22 00:03
研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向,能整合视觉感知、语言理解和动作执行,但处理连续视觉流时计算开销巨大,视觉Token数量通常是文本Token的一个数量级,严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token,但VLA模型存在双系统本质,高层语义理解与底层动作执行对视觉信息需求截然不同,导致现有方法过度偏向保留语义相关Token,却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%,甚至低于30%,直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性,连续时序的动作解码注意力高度重叠,这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计:VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则,兼顾语义与动作需求,语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性,动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略,遵循最小冗余-最大相关性原则,先进行双级Top-k筛选得到语义候选集和动作候选集,再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制,窗口大小设为3,衰减率设为0.8,既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下,最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证:性能与效率的双重突破 - 在50%剪枝率下,VLA-Pruner不仅无性能损失,还能提升成功率,OpenVLA平均提升2.45%,OpenVLA-OFT提升1.05%,原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下,VLA-Pruner仍保持88.9%和88.27%的相对性能,远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下,整体成功率达96.8%,显著高于FastV的73.1%和VLA-Cache的77.2%,证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上,50%剪枝率下平均成功率达100.89%,87.5%剪枝率仍保持87.97%,验证跨架构适配性 [20] - 效率方面,50%剪枝率下FLOPs降至原生模型的60%左右,87.5%剪枝率降至30%左右,最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性,仅语义准则导致动作操控精度下降,仅动作准则牺牲任务规划能力,两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优,w=1性能下降,证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率,层数过浅导致特征提取不充分,过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性,提出语义加动作双级剪枝准则,解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性,通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架,在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑,结合量化、层剪枝等技术提升部署效率,扩展至多模态视觉输入的Token剪枝 [31]
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]