多视角空间推理 - 财报，业绩电话会，研报，新闻

多视角空间推理

搜索文档

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

量子位· 2025-06-02 12:13

视觉语言大模型的空间推理能力 - 当前视觉语言大模型（VLMs）在大规模图文数据中学习到的空间信息是片段化的，仅限于静态视角的理解，缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时，模型表现不佳，缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench，涵盖五种任务类型，覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对，通过自动化3D标注流水线生成精确方向标签，覆盖丰富3D场景 [4][16] - 五大任务包括：物体相对方向识别、人物视线方向识别（相机视角），以及从人类视角出发的三类任务（物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别） [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足，整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%，远低于物体相对方向判断的38.9%，但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角，如GPT-4o在人物视角平均准确率为36.29%，高于摄像头视角的33.57% [25] Multi-View Spatial Model（MVSM） - 研究团队开发MVSM专门用于跨视角空间理解优化，采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升，验证针对性训练的有效性 [5][28] - 在VSI-App评估中，MVSM在室内场景表现提升20%，户外场景提升4.00%，展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具，重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡，为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]

Multi-View Spatial Model (MVSM)

Multi-View Spatial Model (MVSM)

GPT-4o