华科&小米SparseOccVLA:统一的4D场景理解预测和规划,nuScenes新SOTA......
自动驾驶之心·2026-01-19 11:15

文章核心观点 - 由华科、小米和清华AIR团队提出的SparseOccVLA模型,通过创新的稀疏占据查询,成功统一了自动驾驶中的视觉语言模型与语义占据表示,在场景理解、占据预测和轨迹规划等核心任务上均展现出卓越性能 [2][3][32] 背景与挑战 - 自动驾驶领域,视觉语言模型擅长高层语义理解与推理,而语义占据能提供精细、结构化的空间细节,但两者长期独立发展,缺乏有效融合 [2][4] - 传统视觉语言模型在处理自动驾驶多视角视频流时面临token数量爆炸和时空推理能力受限的问题 [2][4] - 语义占据表示过于稠密,难以高效地与视觉语言模型集成,且其低水平表征难以对齐到高水平的语言空间 [2][4][9] 方法创新 - SparseOccVLA的核心是采用一个轻量级的稀疏占据编码器,生成紧凑但信息量极高的稀疏占据查询,作为连接视觉与语言的唯一桥梁 [2][3][14] - 这些稀疏查询被对齐至语言空间,并由大语言模型进行统一推理,实现场景理解与未来占据预测 [3][14] - 模型提出了一种LLM引导的Anchor-Diffusion规划器,通过解耦的锚点打分与去噪过程以及跨模型的轨迹条件融合机制,提升规划性能与稳定性 [3][20][22] - 稀疏占据查询仅关注真实空间中的实体,信息密度和token利用率极高,仅需数百token即可表征完整场景,远低于基于BEV的方法所需的数千token,训练和推理高效 [17][18][23] 实验结果 - 在OmniDrive-nuScenes的场景理解任务中,SparseOccVLA的CIDEr指标达到0.796,相较于当前最优方法HERMES的0.741,实现了7%的相对提升 [23] - 在Occ3D-nuScenes的未来3秒语义占据预测任务中,SparseOccVLA的平均mIoU达到13.71,超越了之前的SOTA方法Sparse World的13.20 [23][24] - 在nuScenes的开环规划基准测试中,SparseOccVLA仅使用稀疏占据查询作为感知输入,即取得了当前最优性能,证明了其强大的泛化潜力 [25][26] - 消融实验表明,移除占据编码器监督会导致语言指标显著下降,移除3D位置编码则模型无法收敛,证明了显式几何语义引导和空间拓扑结构建模的重要性 [27] 技术优势与意义 - SparseOccVLA能同时准确识别远处的行人、车辆等几何物体,以及红绿灯状态、车道线等非几何元素,得益于其完全端到端的设计保留了原始视觉信号 [31] - 该方法提供了一个超越传统基于MLP、Q-Former和BEV的视觉-语言对齐新范式,有望促进跨领域研究并推动自动驾驶社区发展 [32]