Workflow
类人推理过程
icon
搜索文档
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 12:57
多模态大模型视觉推理能力评测 - 清华大学团队开发EscapeCraft 3D密室逃脱环境,用于评估多模态大模型在复杂视觉任务中的推理能力,该论文入选ICCV 2025 [2][3][4] - 环境支持自由配置难度等级,通过调整道具链长度、线索位置(如从出口附近移至远处)测试模型适应性,GPT-4o在线索位置变化后表现显著下降 [6][7][8] - 评测聚焦模型探索决策过程,包括道具获取、视角调整、意图一致性等,而非仅关注最终结果 [16] EscapeCraft环境设计特点 - 环境灵感源自密室逃脱游戏,支持自动生成3D场景,模型需完成找钥匙、解密码等多步骤任务,整合视觉、空间、逻辑信息 [4] - 任务设计高度灵活,可扩展至问答、逻辑推理等方向,为智能体、强化学习研究提供基础平台 [5] - 创新指标包括意图-结果一致性(Intent-Outcome Consistency)、道具获取率(Prop Gain)等,量化模型交互质量与推理效率 [17] 主流模型表现对比 - GPT-4o综合表现最佳,平均逃脱成功率(ER)达81.36%,但在高难度任务中仅26.5%子目标为理解后完成,多数为偶然成功 [17][19][21] - 国产模型Doubao 1.5 Pro在简单关卡中逃脱成功率(91.91%)超越Gemini 1.5 Pro(81.82%)和Claude 3.5(72.73%),交互成功率(Grab SR)达44.68% [19][21] - Gemini 1.5 Pro与Claude 3.5在相同逃脱成功率下行为差异显著:前者交互率高(0.44 vs 0.17)、步数少,后者交互成功率更高但步数多 [21] 模型失败案例与错误类型 - 常见错误包括误判可交互物体(如试图抓取沙发)、视角控制失败(关键道具移出视野)等 [18] - 错误分类显示Claude 3.5的61.1%为推理逻辑错误(目标设定或动作意图不符),38.9%为视觉感知错误 [18] - 多房间设定下模型学习能力有限,仅当房间结构相似时经验可复用 [22] 研究价值与行业应用 - 弥补传统以结果为导向的评估缺陷,强调中间推理过程,推动多模态模型向"类人推理"发展 [16] - 开源环境与数据可支持智能体、强化学习等领域研究,项目已发布GitHub与论文 [22] - 评测揭示当前模型局限:即使视觉输入正确,仍可能因逻辑缺陷失败,体现"看到≠想清"的行业挑战 [18][21]