InternSpatia数据集 - 财报，业绩电话会，研报，新闻 - Reportify

InternSpatia数据集

搜索文档

AI Lab最新InternSpatia：VLM空间推理数据集，显著提升模型能力

具身智能之心· 2025-06-24 22:09

背景与动机 - 当前视觉语言模型（VLMs）在空间推理任务中存在显著不足，如物体位置/大小比较、多视角关系理解等[3] - 现有数据集存在三大局限：场景单一性（集中于室内/室外场景）、指令格式受限（仅支持自然语言或区域掩码）、多视角监督缺失（超90%为单图推理）[3] InternSpatial数据集 - 规模与结构：包含1200万QA对（950万单视图+250万多视图），覆盖5类场景（自然场景、室内、街景、物体中心、具身导航）[3] - 指令多样性：支持19种指令格式，显著优于对比数据集[3] - 视觉格式：提供原始图/带边界框图/掩码图/编号物体图等多种形式[4] - 文本格式：包含自然语言/带<ref>标记/坐标引用等，新增246万QA对的多视角旋转角度预测任务[6] InternSpatial-Bench评估基准 - 单视图诊断：包含6,008 QA对，涵盖位置比较(1845)、大小比较(1822)、旋转估计(409)、物体计数(899)、存在性估计(1000)五类任务[7] - 多视图扩展：在VSI-Bench新增1,000个旋转角度预测QA对[7] 数据引擎设计 - 采用三阶段自动化流水线：注释生成（复用现有注释或SAM2生成掩码）、视角对齐（构建标准3D坐标系）、模板化QA生成（预定义任务模板动态填充）[9] 关键实验结果 - 空间推理性能：InternVL-Spatial-8B模型在单视图任务中位置比较提升25%，多视图任务中物体计数提升17%（68.7 vs 51.7）[9][10] - 多任务表现：在物体计数、绝对距离、物体大小等7项任务中平均得分52.3，较基线提升10.7分[10] - 指令格式鲁棒性：训练后不同格式间准确率差距从23%缩小至5%以内[12] 当前不足 - 模板局限性：自动生成的QA对难以完全复现自然语言复杂度，部分描述机械化[12] - 开放推理欠缺：集中于结构化空间关系，缺少开放式场景推理（如物体运动轨迹解释）[12]

视觉语言模型（VLMs）

InternSpatia数据集

InternSpatial-Bench评估基准

视觉语言模型（VLMs）

InternSpatia数据集

InternSpatial-Bench评估基准