空间推理
搜索文档
复杂空间推理新SOTA,性能提升55%,中山大学新作SpatialDreamer
36氪· 2025-12-22 18:12
核心观点 - 中山大学等机构推出的SpatialDreamer框架通过模拟人类主动心理想象和空间推理过程显著提升了多模态大语言模型在复杂空间任务中的性能为人工智能空间智能发展开辟了新路径 [1] 技术框架与原理 - SpatialDreamer构建了一个基于强化学习的闭环推理流程包含探索、想象、推理三个步骤使模型从被动观察转向主动目标导向的想象 [4] - 为解决长序列推理奖励稀疏问题研究团队提出了GeoPO策略优化方法结合树状采样结构、多级奖励设计和几何惩罚机制以提升性能并加快训练收敛 [4] - 为引导模型学习特定推理模式构建了SpatialDreamer-SFT数据集包含单轮推理数据以及通过错误注入和自我纠正构建的反思式推理数据 [6] 性能表现 - 在SAT基准的真实与合成图像测试中平均准确率分别达到93.9%与92.5%实现了最先进的性能 [7] - 在MindCube-Tiny基准上整体准确率达到84.9%较基线模型Qwen2.5-VL-7B提升超过55% [7] - 在VSI-Bench的物体计数、相对方向、路径规划等任务中全面领先平均准确率达到62.2% [7] 行业意义与发展方向 - 该研究证明了多模态大语言模型可以通过“想象力”增强推理能力是向人类般空间智能迈出的重要一步 [7] - 该框架解决了现有模型在需要视角变换等复杂空间推理任务中的局限例如因视角单一而无法判断遮挡物体位置的问题 [1]
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 17:55
多模态大语言模型空间理解能力的挑战与突破 - 空间推理是多模态大语言模型在实际应用中的关键挑战 当前大多数方法采用“语言描述式调优” 导致模型出现“视觉文盲”现象 无法在生成回答时关注到正确的视觉区域[2] - 基线模型在回答具体问题时 其视觉注意力分散在无关区域 反映出当前模型在空间语义与视觉感知之间缺乏跨模态对齐[3] MILO隐式空间世界建模范式 - 研究团队提出MILO范式 通过引入视觉生成反馈 将符号推理与感知经验隐式结合 旨在为模型植入“空间想象力”[4] - MILO采用两阶段训练流程 在传统语言调优基础上引入视觉生成调优 模型接收几何变换指令并调用视频扩散模型生成新视角图像 从而学习空间变换的视觉表现[5] - 该方法使多模态大语言模型能够内化几何变换的视觉表现 建立起类人的隐式空间世界模型[6] RePE相对位置编码方案 - 团队提出RePE方案 这是一种基于相对相机位姿变换的位置编码方案[8] - 与传统的绝对坐标系编码不同 RePE捕捉相邻帧之间的相对变换 从而具备更好的泛化性与跨数据集适应性[9] GeoGen几何感知生成数据集 - 研究团队构建了GeoGen数据集 包含约2,241个视频和26.7万个“观测-动作-结果”三元组的大规模几何感知生成数据集[10] - 数据集涵盖新视角合成与轨迹生成两类核心任务 数据来源包括扫描的3D场景和互联网视频 确保了数据的多样性和真实性[10][11] MILO在多类任务上的验证效果 - 在3D场景理解任务上 MILO在ScanRefer、Multi3DRefer等多个基准上取得最优性能 在ScanRefer上Acc@0.25指标提升3.2%[14] - 在空间推理任务上 在VSI-Bench上平均准确率达61.7% 超越基线VG-LLM模型2.2%[14] - 在具身任务上 在RefSpatial-Bench的三个子集上全面领先 尤其在未见组合关系任务上提升1.3%[16]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-28 07:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]