Workflow
ReconPruner
icon
搜索文档
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 09:03
文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner,在显著提升推理效率的同时,保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注,但现有VLA模型将视觉输入转换为大量视觉token,导致巨大的计算开销和推理延迟,对车端部署构成挑战 [7] - 现有的视觉token剪枝方法(如引入新投影器、基于注意力或相似性的策略)并非为自动驾驶设计,在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个图像-掩码对,明确定义了对驾驶决策有直接影响的前景区域(如行人、车辆、道路、交通标志等) [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略,并创新性地引入了对抗性前景-背景重建策略,以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面,FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时,FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下,FastDriveVLA的Token FLOPs为5.1T,预填充时间为51 ms/token,解码时间为18 ms/token [27] - 与基于注意力的基线(FastV, SparseVLM)和基于相似性的基线(DivPrune, VisPruner)相比,FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明,ReconPruner能有效保留前景关键信息(如车道、车辆),而其他方法存在漏检或定位不准的问题 [29]
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效
机器之心· 2026-01-04 13:43
文章核心观点 - 小鹏汽车与北京大学联合发表论文《FastDriveVLA》,提出了一种专为端到端自动驾驶设计的、基于重建的视觉token剪枝新范式,旨在解决现有视觉语言-动作模型因视觉token过多导致的计算成本高和推理延迟大的问题 [2][10] - 该方法的核心创新在于受人类驾驶注意力启发,聚焦于对驾驶决策至关重要的前景信息,通过构建大规模标注数据集和新型对抗性训练策略,训练出一个即插即用的轻量级剪枝器,在显著提升推理效率的同时,保持了甚至超越了原始模型的规划性能 [2][13][16][19] 研究背景与问题 - 端到端自动驾驶在一个统一框架中学习整个驾驶流程,减少了模块化系统的误差,增强了简洁性,展现出巨大潜力 [6] - 然而,现有VLA模型将视觉输入转换为大量视觉token,导致了巨大的计算开销和推理延迟,对车端部署构成重大挑战 [8] - 已有的视觉token剪枝方法(如基于注意力或相似性)并非为自动驾驶设计,存在局限性:或需重新训练整个模型,或易受无关信息干扰,或会错误保留与驾驶无关的信息 [8] 方法与创新 - **构建nuScenes-FG数据集**:明确定义对驾驶决策有直接影响的前景区域(如行人、道路、车辆、交通标志等),并利用Grounded-SAM对nuScenes场景进行细粒度前景分割,构建了包含24.1万个图像-掩码对的大规模标注数据集 [13][15] - **设计基于重建的剪枝器ReconPruner**:采用轻量级、可即插即用的设计,借鉴MAE风格的像素重建策略,通过让剪枝器使用其预测的高分token子集来重建前景,以此作为监督信号,鼓励其识别前景内容相关的token [16] - **提出对抗性前景-背景重建策略**:为防止剪枝器采取捷径,额外要求其使用低分token重建背景区域,这种对抗性设置增强了其区分前景与背景token的能力 [19] 实验结果 - **性能对比**:在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2][24] - 剪枝25%(保留2436个token)时,FastDriveVLA的L2轨迹误差平均为31.80 cm,相对性能为原始模型的100.1%;碰撞率平均为0.26%,相对性能为93.6%;路外率平均为2.77%,相对性能为101.0% [24] - 剪枝50%(保留1624个token)时,碰撞率平均为0.25%,相对性能达到97.3%,优于剪枝25%时的表现 [24][28] - 剪枝75%(保留812个token)时,路外率平均为2.91%,相对性能为96.1%,优于剪枝50%时的表现 [24][28] - **效率提升**:当视觉token数量从3249减少至812(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍;在CUDA推理延迟方面,将预填充时间减少了3.7倍、解码时间减少了1.3倍 [2][26][27] - **可视化验证**:ReconPruner几乎完整保留了前景token,将背景压缩为极稀疏色块,重建画面依旧清晰;与基线方法相比,FastDriveVLA选取的token更密集地落在车道、车道线和车身上,证明了其保留关键驾驶信息的能力 [29] 结论与建议 - 研究证明了聚焦于与前景相关的视觉token是提升自动驾驶VLA模型性能与效率的关键 [28] - 对于实际部署,建议采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] - 该工作为自动驾驶VLA模型中的高效视觉token剪枝建立了新范式,并为特定任务的剪枝策略提供了有价值的洞察 [2]
小鹏联合北大提出全新视觉Token剪枝框架,何小鹏:在探索L4路上又取得新突破
新浪财经· 2025-12-28 15:56
新浪科技讯 12月28日下午消息,近日,人工智能领域国际会议AAAI 2026公布了论文录用结果,由小鹏 汽车和北京大学计算机学院多媒体信息处理全国重点实验室联合完成的论文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》成功入选。这篇论文最大的贡 献在于,提出了一种专门为端到端自动驾驶VLA模型定制的、高效的视觉Token剪枝框架—— FastDriveVLA。 据介绍,FastDriveVLA包含一个即插即用的视觉Token剪枝器ReconPruner。在车端模型的推理阶段, ReconPruner可直接嵌入自动驾驶VLA模型用于视觉Token的剪枝,即插即用,无需重新训练整个模型。 为了辅助该剪枝器的训练,还专门构建了包含来自6个摄像头视角的24.1万个图像-掩码对的nuScenes-FG 数据集。这一大规模的自动驾驶前景分割标注数据集,可广泛用于未来自动驾驶的研究。 最终,nuScenes自动驾驶数据集上的测试显示,采用这一剪枝框架,在不同剪枝率下均取得当前最 ...
面向量产VLA!FastDriveVLA:即插即用剪枝模块,推理加速近4倍
自动驾驶之心· 2025-08-24 00:03
核心观点 - 提出FastDriveVLA框架,通过重建式视觉token剪枝技术,在50%压缩率下保持97.3%的自动驾驶规划性能,显著降低计算开销 [5][43] - 设计即插即用剪枝器ReconPruner,结合对抗式前景-背景重建策略,增强前景token辨识能力 [5][20][43] - 构建nuScenes-FG数据集,包含24.1万张图像-掩码对,覆盖六视角车载摄像头,提供细粒度前景分割标注 [6][15][43] 技术背景与行业现状 - 端到端自动驾驶方案通过单一模型完成感知到规划,减少模块间信息损失,但VLA模型因大量视觉token导致高计算延迟 [3][9] - 现有剪枝方法存在局限性:注意力机制法受限于简短文本指令,相似度法易误删关键前景token [4][14][11] - VLA模型通过自然语言增强车辆推理能力,DriveGPT4、OpenDriveVLA等方案已实现细粒度控制输出 [10] 方法论创新 - 基于人类驾驶行为定义前景(车辆、道路、交通标志等)与背景(建筑物、天空等),聚焦关键信息区域 [12] - ReconPruner仅含0.07B参数,通过MAE风格像素重建任务训练,量化token显著性 [17][19] - 对抗式策略强制低分token重建背景,避免"所有token高分"的退化解,提升区分精度 [20][34] 实验与性能 - 在nuScenes数据集测试,输入分辨率1596×1596(3249个token),评估25%/50%/75%剪枝比例 [28][30] - 50%剪枝下:L2误差32.10cm(相对基线99.1%),碰撞率0.25%(97.3%),交叉口率2.94%(95.1%) [30][35] - 对比基线方法:FastDriveVLA在L2误差、碰撞率等关键指标均优于注意力法(FastV)和相似度法(DivPrune) [30][46] 效率提升 - 75%剪枝时:FLOPs降低7.5倍,Prefill延迟减少3.7倍,Decode延迟减少1.3倍 [37][40] - 轻量化设计使CUDA延迟低于部分无参数方法,提升实时部署可行性 [36][37] 数据与可视化 - nuScenes-FG数据集通过GroundedSAM标注,解决原始3D边界框粗糙问题,提供精细前景分割 [15][33] - 可视化显示FastDriveVLA完整保留车道和车辆token,优于基线方法对关键区域的遗漏 [38][46] 行业意义 - 为VLA模型高效推理提供新范式,推动端到端自动驾驶在车载芯片的实际部署 [43][36] - 重建式剪枝策略可扩展至其他具身智能领域,为任务特定型token压缩提供参考 [11][43]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程,相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作(VLA)模型通过引入大语言模型的推理能力,在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术,显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token(如3249个),导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法(如FastV、SparseVLM)和相似度导向法(如VisPruner、DivPrune),但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短,难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架,核心思想是模仿人类驾驶行为,仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner,参数量仅0.07B,通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略,强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割,涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对,覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域,背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下(保留1624个token),L2误差为32.10cm(相对性能保持99.1%),碰撞率0.25%(保持97.3%) [30][32] - 在25%剪枝比例下(保留2436个token),L2误差31.80cm(超过基线0.1%),碰撞率0.26%(超过基线1.0%) [30] - 在75%剪枝比例下(保留812个token),仍保持最优性能,L2误差32.64cm(保持97.5%) [30] 效率提升效果 - FLOPs降低7.5倍,从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍,从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍,从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳,单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法(Gt-mask+Text-attn),在50%剪枝率下L2误差降低0.06cm,碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token,避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式,特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计(0.07B参数)和短训练时间(3小时/2卡H800)利于实际部署 [17][27]