o3绞尽脑汁仅答对40%的题目,开源模型基本乱猜?MMSI-Bench:多图空间智能试金石
量子位·2025-06-11 13:13
MMSI-Bench团队 投稿 量子位 | 公众号 QbitAI AI能看图,也能讲故事,但能理解"物体在哪""怎么动"吗? 空间智能,正是大模型走向具身智能的关键拼图。 面对1000道多图推理题,开源大模型集体失守——准确率不到30%,甚至不如瞎猜!就连最强的OpenAI o3,也只答 对了41%。 这一专为多图像空间智能设计的 MMSI-Bench 由上海人工智能实验室、香港中文大学、浙江大学、清华大学、上海 交通大学、香港大学以及北京师范大学的研究者们共同完成。 多图像空间智能VQA基准测试 MLLM在连接语言视觉、理解物理世界方面进展飞速,是通往具身AGI的关键。其中,空间智能(即理解物体位置、运 动等空间关系的能力)至关重要,是自动驾驶、机器人导航与操作等应用的基础。 因此,缺乏能检验真实多图像推理的基准,就无法可靠衡量和提升MLLM的空间认知。为此,MMSI-Bench的提出正 是为了弥补这一评测空白。 2. 低估真实世界复杂性 真实空间理解需跨多图像追踪、关联实体。 3. 多图像覆盖不足 现有少数多图像基准对空间智能的覆盖既不全面也不深入。 4. 模板化与合成数据 MMSI-Bench是一个用于 ...