Workflow
视觉Token剪枝
icon
搜索文档
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]