Workflow
AI遭遇灵魂拷问!这道题所有模型集体翻车,网友:我也不会啊
量子位·2025-05-19 15:48

AI图像推理难题分析 核心观点 - 当前AI模型在解决复杂图像推理问题时存在显著差异,主要由于对问题规格的理解不同导致答案分歧 [1][2][5] - 问题本质是计算缺失小立方体数量以形成完整大立方体,但题目描述模糊引发多种解读 [31][32][34] 模型表现差异 - o3模型:初始答案为45个(基于5×5×4结构填充计算),但人类验证实际应缺失79个(5×5×5标准)[10][13] - Gemini 2.5 Pro:错误识别为4×4×4结构,给出10个缺失答案 [6][18] - 国内模型:DeepSeek和Qwen3分别基于3×3×3标准得出14和9个缺失立方体 [9][20] 错误根源 - 视觉理解偏差:AI对图像中立方体排列和隐藏结构的分析不准确 [14][35] - 题目模糊性:未明确大立方体目标尺寸(3×3×3/4×4×4/5×5×5)及是否允许重组现有立方体 [33][36] 改进方法 - 提示优化:通过多次提示(如明确边界框尺寸)可使模型逐步修正答案,例如o3最终正确计算出79个缺失 [25][26][39] - 数据增强:将此类问题纳入训练集可提升模型长期记忆和推理能力 [29][30] 人类对比 - 人类同样因题目描述不清产生困惑,需依赖假设(如尺寸标准、重组权限)才能解答 [34][37] - 部分网友认为该问题设计存在"陷阱"性质,刻意省略关键信息 [36]