文章核心观点 - 视觉语言模型在视觉空间推理能力方面存在显著不足,尤其在基础感知、量化推理和动态信息处理方面,这对其在自动驾驶和具身智能等领域的应用构成关键挑战 [2][3][27] - 文章通过提出一个名为SIBench的综合测评基准,系统性地梳理了该领域的方法、任务设定,并对主流模型进行了评估,旨在推动视觉空间智能的发展 [4][12][22][23] 方法介绍 - 改进视觉空间推理能力的方法主要围绕四个方向:输入模态、模型结构、训练策略和推理方式 [6] - 在输入模态上,通过引入深度图等辅助信息来帮助模型从2D输入理解3D空间 [8] - 在模型结构上,通过增加专门的空间编码器来从RGB图像中提取更丰富的3D表征 [9] - 在训练策略上,采用针对视觉空间推理任务专门设计的强化学习奖励机制被证明有效 [10] - 在推理方式上,采用了不同于通用思维链的策略,如构建认知图、调用API或采用RAG等方法 [11] 任务设定与分类 - 文章将视觉空间推理任务按层次分为三类:基础感知、空间理解和任务规划 [12] - 基础感知涉及单个目标的静态属性(如颜色、形状)或动态状态(如方向) [15][16] - 空间理解涉及多个目标或目标与环境之间的静态或动态关系(如位置判断、距离估计) [15][18] - 任务规划要求模型理解空间约束和任务需求,以生成解决方案 [15][21] SIBench基准与模型评估 - SIBench整合了18个开源基准,涵盖3个推理层次、23种任务设定,并支持单图、多视角和视频三种输入形式 [22] - 基于SIBench的评估显示,GPT-5以63.41%的综合得分领先,其次是豆包种子模型(60.12%)和Gemini 2.5 Pro(58.83%) [25] - 在规划任务上,Gemini 2.5 Pro表现突出,得分达到80.17% [25] 主要发现与能力短板 - 主流视觉语言模型的基础感知能力有限,其误差会在后续推理链中积累,影响最终结果 [27] - 模型在定量推理任务(如计数、距离估计)上的表现远差于定性推理任务(如相对位置判断) [27] - 模型处理动态信息(如多视角图像或视频)的能力严重不足,在涉及速度或相机位姿估计的任务中性能显著下降 [27]
腾讯&上海交大等高校联合发布视觉空间推理综述.
具身智能之心·2025-10-15 19:03