语言先验
搜索文档
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
机器之心· 2026-01-06 17:38
空间智能研究现状与隐忧 - 2025年,随着“空间智能”成为大模型竞逐的新高地,通用大模型和专家模型在室内空间推理基准上不断刷新SOTA [2] - 然而,模型训练数据(如ScanNet++、ARKitScenes)与测试基准高度同源,存在数据“近亲繁殖”的隐忧,近期模型分数的飙升可能并非真正习得空间几何推理能力,而是对特定室内数据分布的过拟合 [2] 现有研究的数据局限 - 当前空间智能研究大多过度依赖室内场景,这受限于源数据集的匮乏 [4][5] - 少数可用的室外数据集多基于自动驾驶视角,与第一人称行人视角存在本质差异 [5] - 对室内数据的过度依赖导致训练集与测试集高度同源,且室内场景过强的语义先验难以公平评估模型的空间感知和推理能力 [6] 新基准OSI-Bench的推出 - 为解决上述问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院及苏黎世联邦理工大学发布了全新空间智能基准OSI-Bench [2] - 该基准基于自采开放世界中带有准确3D标注的视频数据,旨在提供对空间智能的真正诊断能力 [2] - OSI-Bench摒弃从现有数据集二次提取的路径,完全基于多传感器平台采集的原始视频流,数据自带精确3D信息,覆盖公园、步行街、古建筑、校园等丰富多样的开放世界场景 [11] OSI-Bench的核心优势与任务设计 - 室外开放世界的核心优势在于其复杂性与随机性,语义先验变得微弱,迫使模型回归到真正的视觉空间推理,从而评估其真实空间能力 [9] - 通过Human-in-the-loop流程,从20小时的视频素材中生成约9000条高质量问答,涵盖9种任务 [12] - 任务被系统性地划分为空间智能的三个层级:相对关系(针对空间位置的定性判断)、静态尺度(针对静态空间物理量的定量估算)、动态尺度(引入时间维度的动态物理量估计) [12][14] 主流模型在OSI-Bench上的评测结果 - 评测结果表明,当下的开源与闭源SOTA多模态大语言模型在OSI-Bench的任务上普遍失败 [13] - 尽管Gemini-2.5-Pro在一众模型中取得相对显著优势,但其整体表现仍远低于人类水平 [15] - 人类在评测中的平均得分(Rank Avg)为66.8,而表现最佳的闭源模型Gemini-2.5-Pro得分为53.1,开源模型InternVL3.5-38B得分为31.4 [15] 模型能力提升的“虚假繁荣” - 研究聚焦于2025年发布新版本并在室内基准VSI-Bench上取得巨大提升的两个模型家族:Qwen-VL与InternVL系列 [16] - 这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在VSI-Bench上的得分显著上升了约24.1分,性能几乎翻倍,但这种惊人的增长并未出现在OSI-Bench上 [16] - 在绝对距离任务上,更新后的各尺寸模型在VSI-Bench上一致涨点,却在OSI-Bench上一致退步,由于两个基准的提问模版完全相同,这直接证明模型在室内基准上的提升是对特定场景分布的过拟合,而非习得可泛化的空间智能 [16] 模型依赖语言先验的“捷径” - 当面对空间任务时,模型倾向于走“捷径”,即利用语言先验知识基于平均值进行猜测,而非进行费力的视觉几何推理 [19] - 盲测实验结果显示,模型在有/无视觉输入的情况下的得分差距极小,表明视觉输入并未被有效用于推理 [22] - 在包含“反常场景”(物体尺寸被特意调整至违背常理)的合成数据测试中,当语言先验失效时,模型的性能出现了断崖式下跌,而人类的空间判断力并未受太大影响 [23] 研究总结与行业影响 - OSI-Bench暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,并对当前模型是否真正具备可泛化的空间能力提出了质疑 [26] - 研究呼唤一种全新的空间智能范式,需要真正赋予模型在空间中感知、在空间中思考的工具与能力,而非仅仅依赖数据驱动的分布拟合 [27] - OSI-Bench的基准与评测代码已全部开源,未来将持续开源更多带有高精度3D信息的开放世界视频数据,以推动空间智能从室内场景走向复杂的开放世界 [28]
语言先验「基础过强」,MLLMs 视觉衰减有何解?
机器之心· 2025-11-01 10:30
MLLMs存在文本主导的注意力偏差 - 多模态大模型存在模态失衡问题,其内在注意力分配机制存在系统性偏差,过度依赖语言先验并系统性地轻视或忽略同时输入的视觉信息[5] - 在复杂推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息[5] - 这种现象普遍存在于以大规模预训练语言模型为核心骨干的各类MLLMs中,包括视觉-语言、音频-语言等多种模态对[5] 视觉信息在长推理链中衰减 - 随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言token的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容[5] - 相较于非推理模型,R1类推理模型在生成过程中显著减少了对视觉token的关注,将大量注意力分配给指令token与语言上下文[6] - 这种“注意力迁移”随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理[6] 模态失衡问题的根源 - MLLMs的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡,其核心是经过万亿级预训练的文本数据,赋予了模型强大的语言先验[8] - 尽管视觉特征通过视觉编码器进行了高维表示,但与语言特征空间相比其代表性不充足,在跨模态注意力过程中容易被忽略或抑制[8] - 模型训练时倾向于采用偏向语言的“捷径学习”策略,通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案[9]