图灵视力测试
搜索文档
AI看不懂的色盲测试背后,藏着一场像素与诗意的战争。
数字生命卡兹克· 2026-02-03 09:31
文章核心观点 - 当前顶尖的多模态人工智能模型在人类看来简单的色盲测试图上表现糟糕,这揭示了其视觉处理机制存在根本性缺陷 [1][5][6] - 人工智能并非真正“看见”世界,而是“计算”世界,其缺乏人类“格式塔”式的整体感知能力,无法从局部信息中“涌现”出有意义的整体概念 [13][22][27] - 人工智能视觉模型(ViT)的工作原理是“先切碎,再拼凑”,这导致其过度关注局部像素和模式,而难以整合信息形成全局理解,本质上是一种“注意力缺失” [54][56][60] AI在色盲测试中的具体表现 - 测试中,Gemini 3 Pro将数字“45”的图片识别为“74”,Claude Opus 4.5识别为“8” [5] - 测试的三个国产大模型也全部失败,其中两个给出了与Gemini相同的错误答案“74” [6] - 唯一答对的GPT 5.2 Thinking是通过生成代码、创建可视化数字掩膜的方式“作弊”完成的,并非直接识别 [7] AI视觉的工作原理与根本缺陷 - 多模态AI的视觉处理流程分为两部分:负责“看”图的视觉编码器(ViT)和负责组织答案的语言模型(LLM) [45] - ViT的工作方式是将图片切割成多个小方块(如16x16像素),然后逐一分析每个小方块的纹理和颜色,最后尝试拼凑理解全局 [54] - 这种机制使AI成为“细节控”,对局部极其敏感,但对局部组合形成的整体概念极其迟钝 [56] - 通过Grad-CAM技术观察AI的注意力热力图发现,其注意力分散且无法聚焦于目标数字的轮廓,最终从记忆库中抓取错误答案 [41][51][52] 人类与AI视觉感知的本质差异 - 人类视觉是“自上而下”的,基于格式塔心理学原理,大脑会自动将颜色、形状相近的元素组织成有意义的整体,并忽略背景噪音 [22][29] - 人类看东西是主动的、有目的的,通过“注意力”整合关键特征(如颜色、形状)并形成完整对象认知,这称为特征整合理论 [57][59] - AI的注意力是“摊大饼式”的、被动的,无法区分前景与背景的重要性差异,导致信息过载和注意力稀释 [60][61] - 人类看到的“颜色”是主观的认知体验,是大脑对反射光波长的解释,而AI能精确识别RGB色值,但缺乏这种主观整合与理解能力 [11][71] 相关研究与测试 - 论文《Pixels, Patterns, but No Poetry: To See The World like Humans》通过“图灵视力测试”验证AI缺乏人类式的视觉感知 [13][32] - 测试包含隐藏文本、3D验证码、汉字组成和色盲测试四项任务,15个顶级多模态模型在色盲测试中几乎全军覆没 [32][38] - AI在色盲测试中频繁错误回答“74”,是因为该数字是维基百科上石原色盲测试标准图的答案,当AI无法从图像中提取整体信息时,会转向记忆库“背答案” [63][64][65]