景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心·2025-10-14 14:33
多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而 上海人工智能实验室、上海交通大学、香港大学、香港中文大学 的研究者们 提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。 对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。 离线鸟瞰全景 VS 在线移步换景 在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个 更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕 头现在在我的右后方」)。 论文链接:https://arxiv.org/abs/2507.07984 项目主页:https://rbler1234.github.io/OSTBench.github.io/ Hugging Face 数据集:https://huggingface.co/datasets/rbler ...