端到端时代下的自动驾驶感知

自动驾驶技术范式转变：从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术，早期因效果不佳而让位于模块化架构，但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化，形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中，感知需提供全量、精确的场景信息供规划使用，因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知，即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路，将人为定义的感知任务作为辅助监督，这被视为感知模块的“手工特征算子”，可能限制模型上限 [13][14] - 感知模块需自我革新，摒弃对人为定义感知任务的依赖，转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念，模仿人类驾驶员根据导航意图关注场景不同部分，而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块，引入导航信息并预测BEV注意力，将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹，实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升，并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖，引入基于BEV特征的自监督世界模型，通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划，在稠密BEV上做世界模型的方案，兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟，其有望完全替代人为感知任务，成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征，替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中，SSR的3秒平均L2误差为0.75米，平均碰撞率为0.15%，推理速度达19.6 FPS，多项指标超越对比方案 [24] - 在Carla仿真闭环测试中，SSR的驾驶得分达78.9，路线完成率达95.5%，综合得分0.83，表现优异 [26] - 消融实验表明，使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域，证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”，标志着可学习感知模块首次大幅超越人为定义感知模块，可能引导行业新方向 [29]