Workflow
多视角空间推理
icon
搜索文档
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]