复旦&上交最新！一篇长达40页的自动驾驶空间检索范式SpatialRetrievalAD

文章核心观点 - 提出一种名为“空间检索增强”的自动驾驶新范式，通过引入离线地理图像（如谷歌地图街景）作为额外输入，以弥补车载传感器在视野受限、遮挡及恶劣天气等复杂场景下的感知局限，从而提升自动驾驶系统的整体性能与鲁棒性 [2][10][56] - 该范式无需额外传感器或人工标注，是一种低成本、即插即用的感知增强方案，通过构建扩展数据集和通用适配器，在多个核心自动驾驶任务上验证了其有效性 [2][11][16] 背景与动机 - 现有自动驾驶系统严重依赖车载传感器进行实时环境感知，但其性能在视野受限、遮挡、黑暗、雨雪雾等极端条件下会显著下降 [2][10] - 人类驾驶员在视觉输入不足时会依赖记忆和场景回忆，研究旨在为自动驾驶系统赋予类似的“回忆”能力，通过空间检索获取更广泛的上下文信息 [10] - 离线地理数据（如谷歌地图或企业自有缓存数据集）具有全球可访问、不受行驶干扰、提供外部视角等优势，是经济高效的空间上下文增强方式 [10][11] 研究方法与框架 - 构建了将地理数据整合到现有自动驾驶数据集的自动化框架，通过谷歌地图API和自车姿态信息实现数据收集与空间对齐 [11] - 基于此框架，扩展了广泛使用的nuScenes数据集，创建了“nuScenes-Geography”数据集，包含地理图像和空间检索API [11][28] - 为系统评估新范式，在五个关键自动驾驶任务上建立了基准：3D目标检测、在线建图、占用预测、端到端规划和生成式世界模型 [3][11] - 设计了一种模型无关的即插即用适配器，可将检索到的地理图像无缝整合到基于鸟瞰图的车载任务模型中 [15][19] - 针对生成式世界模型，提出了沿未来行驶轨迹预检索地理图像的方法，为长时域、全局一致的场景生成提供空间支架 [14][20] - 引入了基于可靠性估计的自适应融合机制，通过评估检索位置距离和图像相似度，动态调整地理特征的贡献权重，以处理缺失或错位的检索数据 [23][26] 实验数据集构建 - nuScenes-Geography数据集通过谷歌地图API，为nuScenes数据集的每个关键帧检索对应的街景图像和卫星地图切片 [28][30] - 采用等矩形全景图表示法存储街景数据，与直接下载每帧裁剪图相比，存储量减少超过70%，实现了存储高效性 [31][34] - 在数据构建过程中，手动识别出1800个地理图像错位案例，用作可靠性估计模块训练的负样本 [35] 实验结果与分析场景理解任务性能提升 - 在线建图：融入地理先验后，MapTR模型在训练110轮后，平均精度提升13.4个百分点（从59.3%提升至72.7%）[40][41] - 占用预测：融入地理先验后，FBOcc模型在静态地形类别的交并比提升2.57个百分点（从55.13%提升至57.7%）[40][41] - 3D目标检测：融入地理数据后，BEVDet和BEVFormer模型的性能提升微乎其微，符合预期，因为空间检索主要提供背景信息 [41][42] 规划鲁棒性增强 - 端到端规划：在具有挑战性的夜间场景中，融入地理先验的VAD模型将平均碰撞率从0.55%降至0.48% [43][44] - 地理先验提供了稳定的道路布局信息，有助于在复杂路口、恶劣天气及夜间条件下生成更平滑、更安全的轨迹 [43][49] 生成式世界模型一致性改善 - 融入地理图像后，生成式世界模型UVG的视频弗雷歇距离降低了6.04（从36.10降至29.97），有效防止了场景漂移和幻觉现象 [42][45] - 地理数据作为结构化支架，增强了长时域滚动生成过程中的时间一致性和几何一致性 [45][50] 对不准确检索的鲁棒性 - 消融实验表明，即使50%的地理先验缺失或错位，模型仍能保留大部分性能提升，证明了可靠性估计门控机制的有效性和实际应用鲁棒性 [53] 结论与贡献 - 研究提出了自动驾驶空间检索范式，并开源了数据集构建代码、扩展数据及基准测试，以支持后续研究 [3][16] - 大量实验表明，该范式能够提升在线建图、占用预测、规划安全和生成式世界模型一致性等多个任务的性能，展示了其巨大潜力 [56]