自动驾驶技术研究进展 - 中科院自动化所与理想汽车联合提出World4Drive框架,实现无感知标注的端到端自动驾驶,在nuScenes和NavSim基准上L2误差降低18 1%(0 61m→0 50m)、碰撞率下降46 7%(0 30%→0 16%)、训练收敛速度提升3 75倍 [2][3] - World4Drive通过融合视觉基础模型的空间语义先验与多模态驾驶意图建模,提出意图感知的潜在世界模型,实现多模态轨迹生成与评估 [3] - 该框架设计驾驶世界编码模块整合视觉基础模型知识,提取富含物理场景上下文的世界潜在表征,无需感知标注即可实现场景理解 [3] 高精地图构建技术突破 - 清华大学等机构提出SafeMap框架,首次实现不完整多视角观测下的鲁棒高精地图构建,在nuScenes数据集缺失关键视角时mAP相对基线模型提升11 1%(如缺失前视角时mAP从31 3%→42 4%) [9][10] - SafeMap包含基于高斯的透视视图重建模块和基于蒸馏的鸟瞰图校正模块,动态聚焦可用视图中最具信息区域以推断缺失视图信息 [10] - 实验显示SafeMap在完整和不完整观测场景下均显著优于现有方法(如MapTR、HIMap),为高精地图构建提供即插即用的鲁棒性增强方案 [10][11] 车道拓扑推理技术创新 - 香港中文大学(深圳)与腾讯提出TopoStreamer模型,通过动态位置编码与多属性约束突破车道拓扑推理时序一致性瓶颈,在OpenLane-V2数据集上车道段感知任务mAP提升3 4%(达36 6%),中心线感知任务OLS提升2 1%(达44 4%) [18][21] - TopoStreamer引入流属性约束模块确保时序传播中车道中心线、边界坐标及其分类的时序一致性,并设计动态车道边界位置编码模块增强位置信息学习 [21] - 该模型在OpenLane-V2基准数据集上实现最先进性能,提出新的车道边界分类准确率指标评估自动驾驶车道变更决策系统性能 [21][23] 多视角图像生成技术 - 上海期智研究院与清华大学提出BEV-VAE框架,通过构建鸟瞰图隐空间实现自动驾驶场景的多视角图像生成与3D布局精准控制,在Argoverse 2数据集上达到0 9505的空间一致性指标(MVSC) [29][34] - BEV-VAE支持通过调整相机姿态进行新视图合成,并在BEV空间中实例化基于扩散的生成过程,实现基于3D物体布局的可控合成 [34] - 实验表明BEV-VAE在32×32×32潜在形状下取得最佳性能(MVSC 0 9505,FID 3 02),优于BEVGen(FID 25 54)和DriveWM(FID 12 99)等对比方法 [35]
自动驾驶论文速递 | ICCV最新论文、端到端、高精地图、世界模型等~
自动驾驶之心·2025-07-03 19:53