核心观点 - 一项最新的多模态理解评测显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线,揭示了其在基础视觉能力上存在系统性缺失 [1][4] 评测设计与结果 - 评测集BabyVision-Mini包含20道严格控制语言依赖的视觉中心任务,并设立3岁、6岁、10岁、12岁儿童作为对照组 [4] - 结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间 [4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距 [4] - 在扩展至388道题的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1% [8] - 在BabyVision-Full评测中,表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7% [9] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间 [9] 模型视觉能力的具体短板 - 大模型的视觉能力在四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上存在全方位不足 [10] - 模型面临的第一类挑战是“非语言细节”缺失,将视觉信息压缩为语言概括时,像素级差异被抹平,导致选项在token空间里变得“几乎一样” [12] - 第二类挑战体现在轨迹追踪任务中,模型将连续路径翻译成离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,从“跟随一条线”退化为“猜测终点” [14] - 第三类挑战是空间想象能力缺失,在三维相关任务中,模型依赖不真实的文字描述,导致漏掉隐藏块或搞错投影关系 [14] - 第四类挑战是图形规律归纳难题,模型易关注颜色、形状等外观属性,将“结构规则”误读成“外观统计”,导致迁移时产生幻觉规则 [16] 能力差距的典型案例 - 在一道垃圾分类连线题中,三岁儿童能轻松完成,而最强的Gemini3-Pro-Preview虽写下大段推理过程,最终仍给出错误答案 [6] - 在空间想象任务中,Gemini3-Pro-Preview错误地忽略了积木块,导致计数错误 [16] - 在图形规律任务中,阿里千问成功判断出部分结构,但在选项识别上出现错误 [18] 根本原因与潜在方向 - 造成大模型普遍超低评分的核心原因在于,许多题目具有“不可言说”的特性,无法在不损失信息的情况下被完整语言化 [18] - 人类可通过直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,此过程会丢失大量关键细节,最终导致推理失误 [18] - 研究团队通过让视觉推理“落地到视觉操作”上,例如让Sora2进行一笔一划的绘制,成功完成了部分连线图像,但Sora2也仅画对了其中一条线 [18][20] - 未来或可通过让模型进行绘画、临摹等方式进行推理,以恢复其文字推理所缺失的能力 [20] - 为了推动多模态智能发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理 [20]
“几乎所有大模型,视觉能力都不如3岁小孩”
观察者网·2026-01-12 20:21