NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理

文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS，旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练，并设计定位与逻辑一致性奖励，显著提升了模型在多项空间推理任务上的性能，其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足，模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建，包含41,080条训练问答对和9,250条验证样本，涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选，最终保留27,152张训练图像和5,919张验证图像，确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境，包含多模态信息，覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链，先由QVQ模型进行推理，再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架，设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性，降低计算开销并实现动态适应，显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中，大部分模型准确率接近随机水平，像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率，整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础，定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准，填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证，线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]