李曼玲、李飞飞团队顶会新作：给大模型测「空间智商」

研究背景与核心观点 - 研究团队提出了一项针对基础模型的“空间智商测试”——空间理论，旨在探究AI是否具备人类级别的高阶空间认知能力，即主动预测并消除环境中的“不确定性”[2][4] - 该研究指出，衡量具身大模型的真正试金石，在于其能否主动预测并消除环境中的“不确定性”，这被认为是通向通用人工智能的必经之路[4] 测试方法与框架 - 研究团队打造了一个“多模态平行测试宇宙”，包含纯文本房间和基于ThreeDWorld引擎渲染的视觉房间，模型仅能使用“移动”、“多角度旋转”和“就地观察”等基础动作进行自主探索[7] - 测试系统从三大核心维度评估AI的空间认知：寻找未知、敏锐纠错和高阶推演[9] - 研究创造性地引入了“认知地图显式探测”机制，要求模型以JSON格式默写脑海中的虚拟地图，使AI对不确定性的建模过程透明化[11] 主要研究发现与模型缺陷 - 当面临“自主求解不确定性”的任务时，主流大模型集体暴露出四大深层缺陷[14] - 缺陷一：主动探索效率低下：大模型自主探索时，往往耗费14到20步以上，并在已观测区域打转，而策略脚本代理平均只需约9步[15]。GPT-5.2在视觉宇宙中的动作准确率从被动接收信息的57.1%大幅下滑至主动探索的仅46.0%[17] - 缺陷二：存在“信念漂移”：模型的内部空间信念脆弱，先前记住的物体坐标等信息会随着探索新区域而迅速退化模糊或被无关信息覆盖[19] - 缺陷三：存在“信念惯性”：在纠错测试中，当物体被移动后，模型亲眼看到新位置，其预测仍固执地偏向老地方。GPT-5.2在视觉模型中的“信念惯性”高达68.9%[21] - 缺陷四：存在“模态鸿沟”：模型在纯文本虚拟房间中表现尚可，但进入基于3D渲染的视觉世界后，得分直线下滑。人类在相同视觉测试中借助简单工具能达到99.0%的准确率，AI与之存在明显差距[23][25] 未来发展方向 - 突破一：培育具有强可塑性的“空间长时记忆”：未来AI需要构建类似人类海马体的灵活回溯机制，以稳固锁定空间结构并能根据即时线索精准剔除错误记忆[26] - 突破二：引入内在“好奇心”驱动的强化探索：智能体应能主动评估信息盲区，在内在“好奇心”驱动下，规划出信息增益最大化的探测轨迹[27] - 突破三：构建真正拥抱3D物理法则的“世界模型”：未来的模型需要超越2D像素层面的模式匹配，真正理解三维空间中的几何刚体法则，能够在脑海中无缝推演视角变换的结果[28]