Visual Reasoning

搜索文档
自动驾驶论文速递 | 视觉重建、RV融合、推理、VLM等
自动驾驶之心· 2025-08-16 17:43
Dream-to-Recon 单目图像三维场景重建 - 核心观点:慕尼黑工业大学团队提出基于扩散-深度蒸馏的单目3D场景重建方法Dream-to-Recon,通过三阶段框架实现仅需单张图像的高精度实时重建,为自动驾驶与机器人提供高效三维感知新范式 [2] - 技术框架: 1) 视图补全模型(VCM):基于ControlNet微调StableDiffusion-2.1,PSNR提升23.9 [2] 2) 合成占据场(SOF):遮挡区域重建精度达72%-73%,超越多视角监督方法2%-10% [2] 3) 轻量蒸馏模型:在KITTI-360/Waymo上整体精度达90%-97%,推理速度提升70倍至75ms/帧 [2] - 性能优势:成功重建动态物体,无需复杂传感器标定 [2][6] SpaRC-AD 雷达-相机融合自动驾驶框架 - 核心观点:慕尼黑工业大学团队提出首个雷达-相机融合的端到端自动驾驶框架,通过稀疏3D特征对齐与多普勒测速技术实现多项性能突破 [13] - 技术突破: 1) 3D检测mAP提升4.8%,跟踪AMOTA提升8.3% [13] 2) 运动预测mADE降低4.0%,轨迹规划L2误差降低0.11m [13] 3) 在nuScenes基准上实现轨迹预测一致性提升9.0%,仿真成功率提升10.0% [16] - 应用价值:增强感知范围,提升恶劣环境鲁棒性,支持检测、跟踪和规划查询的协同优化 [16] 视觉推理统一框架 - 核心观点:建立首个跨范式视觉推理统一框架,整合关系推理、符号推理等五大类型,推动自动驾驶/医疗等安全关键领域的可信AI发展 [23] - 研究进展: 1) 系统关联不同推理范式的方法、任务与评估指标 [24] 2) 整合多模态思维链推理等新兴方向,评估技术优势与局限性 [26] 3) 提出符号与亚符号推理融合、跨域自适应架构设计等前瞻方向 [27] - 行业影响:解决开放环境泛化性和评估可靠性问题,促进多模态因果基准发展 [23] STRIDE-QA 自动驾驶时空推理数据集 - 核心观点:构建目前最大规模自动驾驶时空推理VQA数据集(100小时/285K帧/16M QA对),通过多传感器自动标注实现厘米级几何精度 [36] - 数据特征: 1) 定义三个新颖的以自我为中心的VQA任务,联合要求空间定位和短期预测推理 [37] 2) 支持VLMs在细粒度空间和短期时间推理上的有监督训练 [39] - 模型表现:微调模型STRIDE-Qwen2.5-VL-7B时空定位成功率(MLSR)达55.0%,显著优于通用VLMs [42][44]
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
机器之心· 2025-07-21 12:04
核心观点 - 提出基于视觉 Grounding 的多轮强化学习方法 MGPO,使多模态大模型(LMMs)能在多轮交互中自动预测关键区域坐标,裁剪子图像并整合历史上下文,实现高分辨率图像的精准推理 [1][8] - MGPO 无需额外 Grounding 标注,仅通过最终答案正确性的反馈即可让模型涌现出鲁棒的视觉 Grounding 能力 [2][8] - 相比监督微调(SFT)和 GRPO,MGPO 在高分辨率图像 Benchmark 上表现显著提升,在 MME-Realworld 和 V* Bench 分别提升 5.4% 和 5.2% [18] 方法创新 - 自上而下的可解释视觉推理:赋予 LMMs 问题驱动的视觉搜索机制,提供可解释的视觉 Grounding 输出 [2] - 突破最大像素限制:即使高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标并从原始图像中裁剪出清晰子图像 [2] - 固定两回合对话模板:解决模型冷启动问题,第一轮要求输出区域坐标,第二轮回答问题 [13] 实验结果 - 在 V* Bench 上,MGPO 达到 76.4 分,超过 GRPO 的 71.2 分和 SFT 的 71.7 分 [18] - 基于 7B 模型和 2.1 万样本训练的 MGPO 模型超过 OpenAI 的 o1(69.7 分)和 GPT-4o(73.9 分)[18] - RL 训练过程中,MGPO 生成的有效 Grounding 坐标比例显著上升,证明其自主涌现视觉 Grounding 能力 [19] 技术原理 - 模拟人类多步视觉推理:先预测关键区域坐标并裁剪子图像,再结合上下文进行推理 [10] - 坐标归一化与子图像裁剪:从原始高分辨率图像中裁剪清晰子图,避免缩放导致的细节丢失 [15] - 仅需标准 VQA 数据即可训练,无需昂贵 Grounding 标注 [8][19]