自动驾驶论文速递 | 视觉重建、RV融合、推理、VLM等

Dream-to-Recon 单目图像三维场景重建 - 核心观点：慕尼黑工业大学团队提出基于扩散-深度蒸馏的单目3D场景重建方法Dream-to-Recon，通过三阶段框架实现仅需单张图像的高精度实时重建，为自动驾驶与机器人提供高效三维感知新范式 [2] - 技术框架： 1) 视图补全模型(VCM)：基于ControlNet微调StableDiffusion-2.1，PSNR提升23.9 [2] 2) 合成占据场(SOF)：遮挡区域重建精度达72%-73%，超越多视角监督方法2%-10% [2] 3) 轻量蒸馏模型：在KITTI-360/Waymo上整体精度达90%-97%，推理速度提升70倍至75ms/帧 [2] - 性能优势：成功重建动态物体，无需复杂传感器标定 [2][6] SpaRC-AD 雷达-相机融合自动驾驶框架 - 核心观点：慕尼黑工业大学团队提出首个雷达-相机融合的端到端自动驾驶框架，通过稀疏3D特征对齐与多普勒测速技术实现多项性能突破 [13] - 技术突破： 1) 3D检测mAP提升4.8%，跟踪AMOTA提升8.3% [13] 2) 运动预测mADE降低4.0%，轨迹规划L2误差降低0.11m [13] 3) 在nuScenes基准上实现轨迹预测一致性提升9.0%，仿真成功率提升10.0% [16] - 应用价值：增强感知范围，提升恶劣环境鲁棒性，支持检测、跟踪和规划查询的协同优化 [16] 视觉推理统一框架 - 核心观点：建立首个跨范式视觉推理统一框架，整合关系推理、符号推理等五大类型，推动自动驾驶/医疗等安全关键领域的可信AI发展 [23] - 研究进展： 1) 系统关联不同推理范式的方法、任务与评估指标 [24] 2) 整合多模态思维链推理等新兴方向，评估技术优势与局限性 [26] 3) 提出符号与亚符号推理融合、跨域自适应架构设计等前瞻方向 [27] - 行业影响：解决开放环境泛化性和评估可靠性问题，促进多模态因果基准发展 [23] STRIDE-QA 自动驾驶时空推理数据集 - 核心观点：构建目前最大规模自动驾驶时空推理VQA数据集（100小时/285K帧/16M QA对），通过多传感器自动标注实现厘米级几何精度 [36] - 数据特征： 1) 定义三个新颖的以自我为中心的VQA任务，联合要求空间定位和短期预测推理 [37] 2) 支持VLMs在细粒度空间和短期时间推理上的有监督训练 [39] - 模型表现：微调模型STRIDE-Qwen2.5-VL-7B时空定位成功率(MLSR)达55.0%，显著优于通用VLMs [42][44]