论文与技术创新 - 小鹏汽车与北京大学联合完成的论文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》被人工智能国际顶会AAAI 2026收录 [1][8] - 论文核心贡献是提出了一种专为端到端自动驾驶VLA模型定制的高效视觉Token剪枝框架FastDriveVLA [1][8] - 该框架包含一个即插即用的视觉Token剪枝器ReconPruner,在车端推理阶段可直接嵌入VLA模型使用,无需重新训练整个模型 [1][8] 技术原理与方法 - 研究灵感来源于人类驾驶员有选择性关注前景区域(如行人、车辆、道路)的驾驶经验,旨在让模型学会区分关键与冗余视觉信息 [3][11] - 创新性地提出了“使用前景-背景对抗重建策略来挑token”的新范式,用高分token重建前景,用低分token重建背景 [3][11] - 为训练剪枝器,团队专门构建了大规模自动驾驶前景分割标注数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个图像-掩码对 [1][4][8][12] 技术性能与效果 - 在nuScenes数据集上的测试显示,该框架在不同剪枝率下均取得当前最优(SOTA)效果 [2][9] - 当剪枝比例达25%视觉Token时,驾驶性能几乎不下降,其L2轨迹误差与碰撞率指标甚至超越未剪枝的基准模型 [2][9] - 当剪枝比例达50% Token时,在所有指标上表现更平衡 [2][9] 效率提升 - 框架显著提升了VLA模型的推理效率 [2][9] - 当输入图像的初始token数量从3249减少至812时,FastDriveVLA的FLOPs直降约7.5倍 [4][13] - 在CUDA推理延迟方面,FastDriveVLA将预填充时间提速3.7倍、将解码时间提速1.3倍 [4][13] - 具体数据对比显示,token数从3249减至812时,Prefill Time从38.2 ms/token降至最低3.6 ms/token(提速约10.6倍),Token FLOPs从187 T降至最低43 T(减少约4.3倍) [6][14] 模型与战略意义 - FastDriveVLA建立了自动驾驶VLA模型高效视觉Token剪枝的新范式,树立了车端大模型高效部署上车的新标杆 [2][9] - 小鹏汽车董事长何小鹏表示,这是在探索L4自动驾驶路上的新突破,公司将在物理AI领域继续发力 [2][10] - 该技术是第二代VLA(VLA 2.0)的一部分,公司期待在明年基于VLA 2.0带来更好的智能辅助驾驶体验 [5][13]
小鹏联合北大提出全新视觉Token剪枝框架,何小鹏:在探索L4路上又取得新突破