空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
机器之心·2026-01-05 16:54

多模态大语言模型空间智能评测基准MMSI-Video-Bench的发布 - 上海人工智能实验室InternRobotics团队联合多所高校推出全新空间智能视频基准MMSI-Video-Bench,旨在全面检验多模态大模型在真实世界中的空间理解与推理能力 [2] - 该基准旨在解决现有评测体系的两类问题:依赖模板生成导致问题多样性不足,以及仅聚焦单一任务与受限场景,难以全面评估模型能力 [2] - 空间理解能力被视为多模态大语言模型走向真实物理世界、成为“通用型智能助手”的关键基础 [2] 基准的核心特点与设计 - 全面系统的题型设计:基准构建了覆盖感知、推理与决策全过程的空间智能评测体系 [7] - 基础空间感知能力考察:包括空间构建(理解全局空间布局、实体与场景状态属性、两两空间位置关系)和运动理解(感知长时运动过程,包括实体、相机及交互运动)[6][8] - 高层决策能力考察:包括基于视频信息的规划能力和对未来状态的预测想象能力[6][8] - 扩展任务范畴:考察跨视频推理能力,包含跨时间的记忆更新能力和多视角信息整合能力,以覆盖现实中的复杂情形 [6] - 极具挑战性的问题设计:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精细设计,确保清晰准确且具有高挑战性 [10] - 所有受测模型表现均吃力,表现最好的Gemini 3 Pro准确率仅为38%[10] - 该基准创造了目前最高的人类-AI性能差距,约60%(人类水平为96.4%)[10][14] - 丰富多样的视频数据来源:视频数据来源于25个公开数据集1个自建数据集,涵盖机器人操作、室内外场景、自然风光、体育活动及电影片段等多种类型 [11] - 特定领域针对性测评:得益于场景与任务的全面性,基准可划分出室内场景感知机器人定位三大子基准,用于针对性测评模型特定能力 [12] 主流模型评测结果与能力瓶颈分析 - 整体成绩单:研究团队评测了25个主流多模态模型,整体得分普遍偏低 [14] - 表现最优的模型为Gemini 3 Pro,准确率为38.0%,与人类水平(96.4%)存在接近60%的显著差距 [14] - 开源模型中,QwenVL2.5-72B在“Sufficient-Coverage”设置下平均得分为31.8%,InternVL2.5-8B为28.7%[16] - 核心能力短板:实验结果不仅证实了模型在空间构建能力上的不足,更全面揭示了在运动理解、规划、预测以及跨视频推理等能力上的明显瓶颈 [14] - 预测是所有任务类型中挑战性最高的主任务 [15] - 相机-实体之间的空间关系建模是难度最高的细分类别 [15] - 即便是经过专门空间任务微调的模型,其能力也未能有效泛化到该基准 [15] - 错误类型分析:研究团队将模型错误归纳为五大类型,以定位性能受限的关键原因 [17] 1. 细致定位错误:精细视觉感知失效,如目标遗漏混淆或时间点-事件对应关系错误 [17] 2. ID匹配错误:跨帧过程中难以保持一致的实体身份跟踪 [17] 3. 潜在逻辑推断错误:在需要依赖隐含线索或常识知识的推理任务中失败 [17] 4. 提示输入对齐错误:未能将提示信息与视频信息正确结合进行推理 [17] 5. 几何推理错误:在空间几何关系理解上存在偏差,对相对位置或距离关系判断错误 [17] - 关键瓶颈定位:对代表性模型的错误分析表明,几何推理错误是最为普遍、影响最大的错误类型[19] - 空间构建任务的低表现主要源于几何推理能力不足 [19] - 运动理解任务中,模型难以在快速、细微或长时间跨度的运动中保持精确定位 [21] - 规划与预测任务中,模型除几何推理错误外,还往往无法有效理解提示输入并将其与视频信息进行联合推理 [21] - 跨视频推理任务的失败主要源于多目标跨视频定位的复杂性,以及模型难以利用潜在线索完成推理 [21] 辅助方法尝试与未来研究方向 - 辅助方法效果有限:研究尝试引入3D空间线索(通过3D重建模型生成全局图像作为额外输入)以及采用思维链技术引导规范推理,但均未能带来显著的性能提升 [22][24][27] - 揭示的关键事实:上述结果揭示了两个关键事实 [27] - 如何设计模型真正“可理解、可利用”的空间线索,仍是一个开放且极具挑战性的问题 [27] - 当前模型的失败并非由于缺乏显式推理步骤,而是受限于底层推理能力本身仍然不足[27] - 基准价值与意义:MMSI-Video-Bench是一个高质量、高挑战性且系统全面的评测基准,其评测结果清晰揭示了当前模型与人类表现的显著差距,明确了模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向 [26]