空间智能终极挑战MMSI-Video-Bench来了

文章核心观点 - 上海人工智能实验室等机构联合推出了一个名为MMSI-Video-Bench的全面、高挑战性的视频空间智能评测基准，旨在系统评估多模态大语言模型在真实物理世界中的空间理解与推理能力 [1] - 该基准评测结果显示，当前主流多模态大模型在空间智能方面表现普遍不佳，与人类水平存在巨大差距，揭示了模型在空间构建、运动理解、规划、预测及跨视频推理等多个核心能力上存在显著瓶颈 [10][14] - 研究通过深入错误分析指出，几何推理能力不足是模型表现不佳的关键原因，并且即使引入3D空间线索或思维链提示等辅助方法，也未能显著提升模型性能，表明底层推理能力本身存在根本性不足 [16][18][26] 基准设计与特点 - 全面系统的题型设计：基准从基础空间感知（空间构建、运动理解）和高层决策（规划、预测）两个层面，构建了覆盖感知、推理与决策全过程的评测体系 [5][6][7] - 五大任务与十三子类：基准由五大任务类型和13个子类问题构成，全面检验模型能力 [9] - 高质量问题集：所有问题由11位平均研究年限超过2.5年的3D视觉研究员精心设计打磨，确保了问题的清晰度、准确性和挑战性 [10] - 丰富多样的数据来源：视频数据来源于25个公开数据集和1个自建数据集，涵盖了机器人操作、室内外场景、自然风光、体育及电影片段等多种类型，全面反映真实世界的复杂空间场景 [11] - 针对性能力测评：得益于场景和任务的全面性，基准可划分出室内场景感知、机器人和定位三大子基准，方便进行针对性能力测评 [11] 评测结果与模型表现 - 整体表现低下：对25个主流多模态模型的评测显示，整体得分普遍偏低，表现最优的Gemini 3 Pro准确率仅为38.0%，与人类水平（96.4%）存在接近60%的显著差距 [10][14] - 关键能力瓶颈：模型在空间构建能力上普遍不足，同时在运动理解、规划、预测以及跨视频推理等能力上也存在明显瓶颈 [14] - 最具挑战的任务：在所有任务类型中，预测（Prediction）是最具挑战性的主任务，而相机-实体之间的空间关系建模是难度最高的细分类别 [14] - 微调模型泛化能力有限：即使是经过专门空间任务微调的模型，其能力也未能有效泛化到MMSI-Video-Bench基准上 [14] 错误分析与能力瓶颈 - 五大错误类型：研究团队将模型错误归纳为五大类型：细致定位错误、ID匹配错误、潜在逻辑推断错误、提示输入对齐错误和几何推理错误 [16] - 核心瓶颈是几何推理：几何推理错误是最为普遍且影响最大的错误类型，空间构建任务的低表现主要源于几何推理能力不足 [18] - 其他任务的具体困难：在运动理解任务中，模型难以在快速、细微或长时间跨度的运动中保持精确定位；在规划与预测任务中，模型无法有效结合提示信息与视频进行联合推理；跨视频推理任务的失败则源于多目标跨视频定位的复杂性和利用潜在线索的困难 [20] 辅助方法的局限性 - 辅助方法效果有限：研究尝试引入3D空间线索（通过3D重建模型生成全局图像）和思维链提示来辅助模型，但均未能带来显著的性能提升 [21][25][26] - 揭示的根本问题：这些结果表明，如何设计模型真正“可理解、可利用”的空间线索仍是一个开放挑战，且当前模型的失败主要受限于底层推理能力本身的不足，而非缺乏显式推理步骤 [26]