Workflow
空间推理
icon
搜索文档
CVPR 2026 Workshop征稿|从感知到推理,ViSCALE 2.0 邀你重塑计算机视觉的 System 2
机器之心· 2026-02-13 12:19
研讨会核心信息 - 第二届计算机视觉推理扩展研讨会(ViSCALE 2026)将于2026年6月在美国举办,由来自清华大学、普林斯顿大学、加州大学圣克鲁兹分校、新加坡国立大学等全球顶尖机构的学者联合举办 [2] - 研讨会旨在汇聚全球顶尖学者,共同探索如何让视觉模型通过计算扩展突破现有模型的能力瓶颈 [2] - 研讨会将采用线上线下混合模式,于2026年6月3日或4日举行,会期为半天 [9] 研讨会核心观点与研究方向 - 研讨会认为计算机视觉正站在新范式的路口,其发展路径是从单纯的像素感知,到构建符合物理规律的世界模型;从平面的模式识别,到复杂的空间推理 [2] - 研讨会关注的重点是深度推理,旨在探索模型如何在测试时动态分配计算资源,实现从“看懂画面”到“模拟世界”的跃迁,而非上一代模型的“直觉反应” [5] - 核心研究方向包括:利用测试时计算扩展提升视频生成的物理一致性与长时序因果推理能力;突破2D限制,让模型在3D空间中具备类似人类的导航与操作直觉;发展视觉思维链,让视觉模型学会反思、自我修正与多步推理;探索测试时计算量与视觉推理性能之间的扩展规律 [6] 研讨会征稿详情 - 研讨会寻求能打破现有视觉模型天花板的原创性研究,鼓励新颖观点和创意思路,接受多种类型投稿 [7] - 征稿分为两个方向:Track 1为正式论文,属于存档类型,篇幅限制为8页(不含参考文献);Track 2为扩展摘要,属于非存档类型,篇幅限制不超过4页(不含参考文献) [9] - 投稿需使用CVPR 2026 Author Kit格式,截止日期为2026年3月10日,录用通知将于2026年3月18日发出 [9] - 具体征稿议题包括但不限于:测试时计算扩展的理论基础与高效算法、世界模型/视频生成/复杂决策中的推理扩展、具身智能与自动驾驶中的长时序空间推理、统一模型中的推理扩展问题、视觉思维链与模型可解释性、推理扩展带来的安全性/鲁棒性与幻觉问题 [9]
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
机器之心· 2026-01-12 14:35
核心观点 - 视觉语言模型在空间推理任务中存在“语义-几何鸿沟”,导致其无法处理精确的空间量化问题[2] - 北京航空航天大学与上海人工智能实验室的研究团队提出了几何约束智能体,通过“先形式化约束,后确定性计算”的新范式,显著提升了视觉语言模型的空间推理能力[4] - GCA方法无需海量数据微调,通过构建形式化任务约束并调用视觉工具进行计算,在多个基准测试中确立了新的性能标杆[4][14] 行业痛点与问题根源 - 视觉语言模型在图像描述与通用语义理解上表现卓越,但在需要高精度几何计算的空间推理任务上表现显著下滑[6] - “语义-几何鸿沟”的根源在于视觉语言模型将丰富的像素信息压缩为抽象语义特征,导致物体精确位置、朝向、尺度等高保真几何细节大量丢失[7] - 视觉语言模型缺乏几何想象力,无法在脑海中精确构建三维场景,使其在面对复杂空间推理时力不从心[7] 技术创新与方法论 - GCA创新性地引入了形式化任务约束,将空间推理精准拆解为“任务形式化”和“几何计算”两个阶段[9] - 在任务形式化阶段,视觉语言模型将模糊的自然语言指令转化为明确的数学约束,包括目标约束和参考系约束[9][11][12] - 在几何计算阶段,视觉语言模型转变为任务求解器,严格遵循划定的边界,调用3D重建、目标检测、OCR等感知与计算工具执行确定性的几何计算[13] - GCA归纳了三种人类常用的核心参考系:基于物体的参考系、基于相机的参考系和基于方向的参考系[12] - 该方法依赖三个核心设计:智能工具调度与绑定、感知与计算的无缝衔接、以及检索增强的可靠计算[20] 性能表现与实验结果 - 在MMSI-Bench、MindCube-tiny、OmniSpatial等多个主流空间推理基准上,GCA构建了全新的空间智能性能标杆[14] - GCA取得了65.1%的平均准确率,显著超越了现有基于训练的方法与工具集成的方法[15] - 在极具挑战性的多图空间推理基准MMSI-Bench中,基于Qwen3-VL-Thinking构建的GCA准确率从32.6%跃升至47.6%,性能提升近50%[4][15] - 基于Gemini-2.5-Pro构建的GCA表现尤为惊艳,其在MMSI-Bench上的准确率从36.9%飞跃至55.0%[16] - GCA是一种无需训练的通用推理范式,实验显示,在搭载GCA架构后,受测模型在MMSI-Bench上的性能平均实现了约37%的相对提升[16] 方法有效性与前瞻性 - 对比实验表明,若仅为视觉语言模型提供工具而不施加形式化约束,其性能提升微乎其微,证明了“先约束”范式的重要性[24] - 得益于GCA架构的模块化设计,研究团队能够对推理链路进行精确的错误归因,分析显示视觉语言模型在“任务形式化”阶段的准确率已高达约70%[24] - 当前主要错误来源于下游感知工具,这表明GCA的推理逻辑是稳健的,其性能将随着感知模型的进步而持续提升[24]
复杂空间推理新SOTA,性能提升55%,中山大学新作SpatialDreamer
36氪· 2025-12-22 18:12
核心观点 - 中山大学等机构推出的SpatialDreamer框架通过模拟人类主动心理想象和空间推理过程显著提升了多模态大语言模型在复杂空间任务中的性能为人工智能空间智能发展开辟了新路径 [1] 技术框架与原理 - SpatialDreamer构建了一个基于强化学习的闭环推理流程包含探索、想象、推理三个步骤使模型从被动观察转向主动目标导向的想象 [4] - 为解决长序列推理奖励稀疏问题研究团队提出了GeoPO策略优化方法结合树状采样结构、多级奖励设计和几何惩罚机制以提升性能并加快训练收敛 [4] - 为引导模型学习特定推理模式构建了SpatialDreamer-SFT数据集包含单轮推理数据以及通过错误注入和自我纠正构建的反思式推理数据 [6] 性能表现 - 在SAT基准的真实与合成图像测试中平均准确率分别达到93.9%与92.5%实现了最先进的性能 [7] - 在MindCube-Tiny基准上整体准确率达到84.9%较基线模型Qwen2.5-VL-7B提升超过55% [7] - 在VSI-Bench的物体计数、相对方向、路径规划等任务中全面领先平均准确率达到62.2% [7] 行业意义与发展方向 - 该研究证明了多模态大语言模型可以通过“想象力”增强推理能力是向人类般空间智能迈出的重要一步 [7] - 该框架解决了现有模型在需要视角变换等复杂空间推理任务中的局限例如因视角单一而无法判断遮挡物体位置的问题 [1]
大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
量子位· 2025-12-04 17:55
多模态大语言模型空间理解能力的挑战与突破 - 空间推理是多模态大语言模型在实际应用中的关键挑战 当前大多数方法采用“语言描述式调优” 导致模型出现“视觉文盲”现象 无法在生成回答时关注到正确的视觉区域[2] - 基线模型在回答具体问题时 其视觉注意力分散在无关区域 反映出当前模型在空间语义与视觉感知之间缺乏跨模态对齐[3] MILO隐式空间世界建模范式 - 研究团队提出MILO范式 通过引入视觉生成反馈 将符号推理与感知经验隐式结合 旨在为模型植入“空间想象力”[4] - MILO采用两阶段训练流程 在传统语言调优基础上引入视觉生成调优 模型接收几何变换指令并调用视频扩散模型生成新视角图像 从而学习空间变换的视觉表现[5] - 该方法使多模态大语言模型能够内化几何变换的视觉表现 建立起类人的隐式空间世界模型[6] RePE相对位置编码方案 - 团队提出RePE方案 这是一种基于相对相机位姿变换的位置编码方案[8] - 与传统的绝对坐标系编码不同 RePE捕捉相邻帧之间的相对变换 从而具备更好的泛化性与跨数据集适应性[9] GeoGen几何感知生成数据集 - 研究团队构建了GeoGen数据集 包含约2,241个视频和26.7万个“观测-动作-结果”三元组的大规模几何感知生成数据集[10] - 数据集涵盖新视角合成与轨迹生成两类核心任务 数据来源包括扫描的3D场景和互联网视频 确保了数据的多样性和真实性[10][11] MILO在多类任务上的验证效果 - 在3D场景理解任务上 MILO在ScanRefer、Multi3DRefer等多个基准上取得最优性能 在ScanRefer上Acc@0.25指标提升3.2%[14] - 在空间推理任务上 在VSI-Bench上平均准确率达61.7% 超越基线VG-LLM模型2.2%[14] - 在具身任务上 在RefSpatial-Bench的三个子集上全面领先 尤其在未见组合关系任务上提升1.3%[16]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-28 07:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 22:09
背景与动机 - 当前视觉语言模型(VLMs)在空间推理任务中存在显著不足,如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限:场景单一性(集中于室内/室外场景)、指令格式受限(仅支持自然语言或区域掩码)、多视角监督缺失(超90%为单图推理)[3] InternSpatial数据集 - 规模与结构:包含1200万QA对(950万单视图+250万多视图),覆盖5类场景(自然场景、室内、街景、物体中心、具身导航)[3] - 指令多样性:支持19种指令格式,显著优于对比数据集[3] - 视觉格式:提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式:包含自然语言/带<ref>标记/坐标引用等,新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断:包含6,008 QA对,涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展:在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线:注释生成(复用现有注释或SAM2生成掩码)、视角对齐(构建标准3D坐标系)、模板化QA生成(预定义任务模板动态填充)[9] 关键实验结果 - 空间推理性能:InternVL-Spatial-8B模型在单视图任务中位置比较提升25%,多视图任务中物体计数提升17%(68.7 vs 51.7)[9][10] - 多任务表现:在物体计数、绝对距离、物体大小等7项任务中平均得分52.3,较基线提升10.7分[10] - 指令格式鲁棒性:训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性:自动生成的QA对难以完全复现自然语言复杂度,部分描述机械化[12] - 开放推理欠缺:集中于结构化空间关系,缺少开放式场景推理(如物体运动轨迹解释)[12]
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 13:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]