格式塔心理学
搜索文档
AI看不懂的色盲测试背后,藏着一场像素与诗意的战争。
数字生命卡兹克· 2026-02-03 09:31
文章核心观点 - 当前顶尖的多模态人工智能模型在人类看来简单的色盲测试图上表现糟糕,这揭示了其视觉处理机制存在根本性缺陷 [1][5][6] - 人工智能并非真正“看见”世界,而是“计算”世界,其缺乏人类“格式塔”式的整体感知能力,无法从局部信息中“涌现”出有意义的整体概念 [13][22][27] - 人工智能视觉模型(ViT)的工作原理是“先切碎,再拼凑”,这导致其过度关注局部像素和模式,而难以整合信息形成全局理解,本质上是一种“注意力缺失” [54][56][60] AI在色盲测试中的具体表现 - 测试中,Gemini 3 Pro将数字“45”的图片识别为“74”,Claude Opus 4.5识别为“8” [5] - 测试的三个国产大模型也全部失败,其中两个给出了与Gemini相同的错误答案“74” [6] - 唯一答对的GPT 5.2 Thinking是通过生成代码、创建可视化数字掩膜的方式“作弊”完成的,并非直接识别 [7] AI视觉的工作原理与根本缺陷 - 多模态AI的视觉处理流程分为两部分:负责“看”图的视觉编码器(ViT)和负责组织答案的语言模型(LLM) [45] - ViT的工作方式是将图片切割成多个小方块(如16x16像素),然后逐一分析每个小方块的纹理和颜色,最后尝试拼凑理解全局 [54] - 这种机制使AI成为“细节控”,对局部极其敏感,但对局部组合形成的整体概念极其迟钝 [56] - 通过Grad-CAM技术观察AI的注意力热力图发现,其注意力分散且无法聚焦于目标数字的轮廓,最终从记忆库中抓取错误答案 [41][51][52] 人类与AI视觉感知的本质差异 - 人类视觉是“自上而下”的,基于格式塔心理学原理,大脑会自动将颜色、形状相近的元素组织成有意义的整体,并忽略背景噪音 [22][29] - 人类看东西是主动的、有目的的,通过“注意力”整合关键特征(如颜色、形状)并形成完整对象认知,这称为特征整合理论 [57][59] - AI的注意力是“摊大饼式”的、被动的,无法区分前景与背景的重要性差异,导致信息过载和注意力稀释 [60][61] - 人类看到的“颜色”是主观的认知体验,是大脑对反射光波长的解释,而AI能精确识别RGB色值,但缺乏这种主观整合与理解能力 [11][71] 相关研究与测试 - 论文《Pixels, Patterns, but No Poetry: To See The World like Humans》通过“图灵视力测试”验证AI缺乏人类式的视觉感知 [13][32] - 测试包含隐藏文本、3D验证码、汉字组成和色盲测试四项任务,15个顶级多模态模型在色盲测试中几乎全军覆没 [32][38] - AI在色盲测试中频繁错误回答“74”,是因为该数字是维基百科上石原色盲测试标准图的答案,当AI无法从图像中提取整体信息时,会转向记忆库“背答案” [63][64][65]
AI看不到的爱心,成了最棒的AI检测器。
数字生命卡兹克· 2025-10-31 09:33
AI视觉模型的技术局限性 - 当前主流AI视觉模型(包括GPT-5-Thinking、Gemini 2.5 Pro、GPT-5 Pro以及国产模型豆包、Qwen、元宝)均无法识别一张包含动态心形错觉的静态图像,所有模型测试结果均为失败[6][7][8][10][12][14] - 根据2024年5月发表的论文《Time Blindness: Why Video-Language Models Can't See What Humans Can?》,AI模型在SpookyBench基准测试中表现极差,该基准包含451个视频(文本类210个占46.6%、物体图像类156个占34.6%、动态场景类57个占12.6%、形状类28个占6.2%),人类识别准确率超过98%,而所有测试的AI模型准确率均为0%[23][27][34][35][36][38] - 问题的本质在于AI模型存在"空间偏见"(Spatial Bias),其处理视频的方式是基于抽帧分析静态图片的空间信息,完全丢失了帧与帧之间的时间维度信息,而动态错觉(如噪点鹿和漂浮心形)的关键信息恰恰存在于时间维度中[43][47][49][50][51][52] 人类视觉与AI视觉的根本差异 - 人类视觉系统基于格式塔心理学的"共同命运法则",能自动将朝同一方向运动的物体识别为一个整体,这是一种内置于人类基因的、无需思考的本能反应,使得人类能轻易感知时间维度上的动态图案[55][57][58][64][65] - 人类对静态图像产生动态感知的生理基础是眼球的不自主微运动(如特克斯勒消逝效应所述),这保证了我们对静止图像的持续感知,而AI视觉系统缺乏这种生物机制[79][80][81][82][85] - 人类认知世界的方式是连续的、流动的、充满过程的,而AI认知世界的方式是离散的、静态的、充满物体的,这种根本差异导致了AI在时间维度感知上的"时间盲视"(Time Blindness)[72][73][74][75] 行业技术发展启示 - AI视觉模型的当前架构局限性(时间盲视)并非通过增加训练数据或微调就能解决的技术漏洞,而是涉及根本架构的挑战,这为行业下一代视频语言模型的发展指明了关键方向[41][71] - 该研究揭示了AI与人类在视觉感知路径上的根本分歧:AI是空间维度分析的王者但在时间维度上是瞎子,而人类视觉系统在时间维度感知上具有天然优势,这为仿生AI和神经科学启发的人工智能研究提供了重要视角[66][67][92][93]