视觉-语言大模型（VLM）

搜索文档

面向量产VLA方案！FastDriveVLA：即插即用剪枝模块，推理加速近4倍（北大&小鹏）

自动驾驶之心· 2025-08-05 07:33

端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程，相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作（VLA）模型通过引入大语言模型的推理能力，在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术，显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token（如3249个），导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法（如FastV、SparseVLM）和相似度导向法（如VisPruner、DivPrune），但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短，难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架，核心思想是模仿人类驾驶行为，仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner，参数量仅0.07B，通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略，强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割，涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对，覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域，背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下（保留1624个token），L2误差为32.10cm（相对性能保持99.1%），碰撞率0.25%（保持97.3%） [30][32] - 在25%剪枝比例下（保留2436个token），L2误差31.80cm（超过基线0.1%），碰撞率0.26%（超过基线1.0%） [30] - 在75%剪枝比例下（保留812个token），仍保持最优性能，L2误差32.64cm（保持97.5%） [30] 效率提升效果 - FLOPs降低7.5倍，从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍，从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍，从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳，单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法（Gt-mask+Text-attn），在50%剪枝率下L2误差降低0.06cm，碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token，避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式，特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计（0.07B参数）和短训练时间（3小时/2卡H800）利于实际部署 [17][27]