小鹏联合北大提出全新视觉Token剪枝框架，何小鹏：在探索L4路上又取得新突破

论文与技术创新 - 小鹏汽车与北京大学联合完成的论文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》被人工智能国际顶会AAAI 2026收录 [1][8] - 论文核心贡献是提出了一种专为端到端自动驾驶VLA模型定制的高效视觉Token剪枝框架FastDriveVLA [1][8] - 该框架包含一个即插即用的视觉Token剪枝器ReconPruner，在车端推理阶段可直接嵌入VLA模型使用，无需重新训练整个模型 [1][8] 技术原理与方法 - 研究灵感来源于人类驾驶员有选择性关注前景区域（如行人、车辆、道路）的驾驶经验，旨在让模型学会区分关键与冗余视觉信息 [3][11] - 创新性地提出了“使用前景-背景对抗重建策略来挑token”的新范式，用高分token重建前景，用低分token重建背景 [3][11] - 为训练剪枝器，团队专门构建了大规模自动驾驶前景分割标注数据集nuScenes-FG，包含来自6个摄像头视角的24.1万个图像-掩码对 [1][4][8][12] 技术性能与效果 - 在nuScenes数据集上的测试显示，该框架在不同剪枝率下均取得当前最优（SOTA）效果 [2][9] - 当剪枝比例达25%视觉Token时，驾驶性能几乎不下降，其L2轨迹误差与碰撞率指标甚至超越未剪枝的基准模型 [2][9] - 当剪枝比例达50% Token时，在所有指标上表现更平衡 [2][9] 效率提升 - 框架显著提升了VLA模型的推理效率 [2][9] - 当输入图像的初始token数量从3249减少至812时，FastDriveVLA的FLOPs直降约7.5倍 [4][13] - 在CUDA推理延迟方面，FastDriveVLA将预填充时间提速3.7倍、将解码时间提速1.3倍 [4][13] - 具体数据对比显示，token数从3249减至812时，Prefill Time从38.2 ms/token降至最低3.6 ms/token（提速约10.6倍），Token FLOPs从187 T降至最低43 T（减少约4.3倍） [6][14] 模型与战略意义 - FastDriveVLA建立了自动驾驶VLA模型高效视觉Token剪枝的新范式，树立了车端大模型高效部署上车的新标杆 [2][9] - 小鹏汽车董事长何小鹏表示，这是在探索L4自动驾驶路上的新突破，公司将在物理AI领域继续发力 [2][10] - 该技术是第二代VLA（VLA 2.0）的一部分，公司期待在明年基于VLA 2.0带来更好的智能辅助驾驶体验 [5][13]