故障艺术 - 财报，业绩电话会，研报，新闻 - Reportify

故障艺术

搜索文档

蒙娜丽莎让大模型们几乎全军覆没！网友：懂了，AI不会眯眼睛

量子位· 2025-07-06 13:12

大模型视觉识别能力测试核心观点 - 当前主流大模型在识别视觉错位图像（如条纹干扰下的蒙娜丽莎）时普遍表现不佳，仅个别模型能通过特定提示完成识别[1][3][26] 国际大模型表现 - **ChatGPT**：能识别视觉错位图和人脸轮廓，但最终判断错误[13]；深度思考后仍无法给出答案[14] - **Gemini**：仅识别出颜色条纹和侧脸轮廓，未判断具体人物[6][15] - **Grok**：直接表示无法辨认，要求提供更清晰图像[16] 国产大模型表现 - **豆包**：能分析图像风格和人脸轮廓，但误判为爱因斯坦[18][19]；深度思考后仍基于错误特征推理[20] - **Qwen3-235B-A22B**：发现侧脸剪影但未识别具体人物[21][22] - **元宝、讯飞**：未提供有效识别结果[23] 成功案例与机制分析 - **o3-Pro**：唯一成功识别蒙娜丽莎的模型，推测其通过工具增强推理能力（如模糊处理）[27][29] - 成功依赖外部提示（如告知"著名画作"）或人工预处理（如模糊图像）[34][36] - 普通版本o3需依赖Python图像处理工具但效果有限[29] 技术局限性 - 大模型普遍缺乏人类"眯眼"的视觉信息整合能力[10] - 故障艺术图像的通道分离特性对模型构成显著干扰[20] 测试方法 - 通过提示词引导模型模拟"眯眼"行为以降低条纹干扰[9] - 部分模型需结合深度思考模式进行多轮推理[19][21]