故障艺术

搜索文档
蒙娜丽莎让大模型们几乎全军覆没!网友:懂了,AI不会眯眼睛
量子位· 2025-07-06 13:12
大模型视觉识别能力测试 核心观点 - 当前主流大模型在识别视觉错位图像(如条纹干扰下的蒙娜丽莎)时普遍表现不佳,仅个别模型能通过特定提示完成识别[1][3][26] 国际大模型表现 - **ChatGPT**:能识别视觉错位图和人脸轮廓,但最终判断错误[13];深度思考后仍无法给出答案[14] - **Gemini**:仅识别出颜色条纹和侧脸轮廓,未判断具体人物[6][15] - **Grok**:直接表示无法辨认,要求提供更清晰图像[16] 国产大模型表现 - **豆包**:能分析图像风格和人脸轮廓,但误判为爱因斯坦[18][19];深度思考后仍基于错误特征推理[20] - **Qwen3-235B-A22B**:发现侧脸剪影但未识别具体人物[21][22] - **元宝、讯飞**:未提供有效识别结果[23] 成功案例与机制分析 - **o3-Pro**:唯一成功识别蒙娜丽莎的模型,推测其通过工具增强推理能力(如模糊处理)[27][29] - 成功依赖外部提示(如告知"著名画作")或人工预处理(如模糊图像)[34][36] - 普通版本o3需依赖Python图像处理工具但效果有限[29] 技术局限性 - 大模型普遍缺乏人类"眯眼"的视觉信息整合能力[10] - 故障艺术图像的通道分离特性对模型构成显著干扰[20] 测试方法 - 通过提示词引导模型模拟"眯眼"行为以降低条纹干扰[9] - 部分模型需结合深度思考模式进行多轮推理[19][21]