行业技术发展新方向 - 多模态大语言模型在视觉与语言融合的感知与推理任务中展现出强大能力[1] - 研究焦点从离线静态场景理解转向在线动态场景理解,更贴近真实世界应用[3] - OST-Bench基准通过“移步换景”的动态在线视角,为模型能力提出新挑战[1][3] 新基准的核心特点与设计 - 基准设计包含在线设定和跨时空理解两大核心特点,模型需在增长观测中实时感知并结合历史信息推理[3] - 将动态场景理解划分为智能体空间状态、智能体可见信息、智能体-物体空间关系三大信息类别[7] - 基于三类信息设计了15个子任务,覆盖判断、估算、计数、时间定位四类题型[7] - 通过规则生成加人工筛选,构建了包含10k测试集数据和50k训练集数据的大规模基准[7] 主流模型性能评估 - 当前主流多模态大模型与人类水平存在显著性能差距,人类水平平均准确率达83.5%,而最佳模型GPT-4.1为53.4[9][10] - 在具体任务表现上,模型在智能体可见信息任务上相对较好,最佳达76.5,但在智能体-物体空间关系任务上表现最差,仅为37.7[10] - 开源模型中Intern VL-2.5-78B表现最佳,平均准确率达51.1,接近部分商用模型水平[9][10] 模型能力短板分析 - 模型准确率随探索步数增加持续下降,暴露出现有范式难以适应长时序在线设定的缺陷[12] - 专门的空间增强模型如Spatial-MLLM、VLM-3R等未带来预期提升,在部分任务上反而出现明显退步[12][13] - 模型存在“时空推理捷径”现象,倾向于就地猜测而非真正进行时空整合推理[14][15] 技术突破方向 - 复杂线索条件下的空间推理能力不足与长期记忆检索机制薄弱是当前模型的两大关键限制因素[18] - 微调实验显示模型分数可提升超过10%,但复杂时空推理任务准确率仍难以突破50%[21] - 微调带来的提升更多是“题海战术式的熟练”而非“机制上的理解进步”,需要更强的模型设计或训练策略[21]
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
36氪·2025-10-14 16:54