BabyVision评测集
搜索文档
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
观察者网· 2026-01-12 20:30
多模态大模型视觉能力评测结果 - 红杉中国xBench与UniPatAI团队发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力[1] - 首轮测试结果显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线[1][4] - 在包含20道视觉中心任务的BabyVision-Mini测试中,大多数顶尖模型得分集中在明显低于3岁儿童平均水平的区间[4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距[4] 模型与人类表现对比 - 在BabyVision-Mini测试中,三岁儿童能凭本能轻松完成垃圾分类连线等视觉任务,而最强的Gemini3-Pro-Preview模型虽写下大段推理过程,最终仍给出错误答案[4][6] - 在包含388道题目的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1%[8] - 大模型方面,在Full测试中表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7%[8] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间[8] 视觉能力系统性缺失的类别 - 评测指出,大模型的不足体现在视觉能力的四大类别上的全方位不足,包括精细辨别、视觉追踪、空间感知以及视觉模式识别,说明存在系统性缺失[10] - 第一类挑战来自“非语言细节”缺失:模型将视觉信息转为语言概括(如“像钩子、有两个腿”)时,细微的像素级差异被抹平,导致选项在token空间里变得“几乎一样”[12] - 第二类挑战体现在轨迹追踪任务:模型将连续路径翻译成“左/右/上/下”的离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”[14] - 第三类挑战是空间想象能力缺失:在三维方块计数等任务中,模型依靠语言推理,但文字描述并非真实三维结构,导致漏掉隐藏块、搞错投影关系[14] - 第四类挑战是图形规律归纳难题:模型会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则[17] 核心原因与潜在改进方向 - 研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中许多题目具有“不可言说”的特性,即无法在不损失信息的情况下被完整语言化[19] - 人类通过指一指、圈一圈、沿线追踪等直觉方式解题,而模型必须将视觉信息压缩为token进行语言化处理,此过程中大量关键细节丢失,最终导致推理失误[19] - 研究团队通过让视觉推理“落地到视觉操作”上,例如Sora2一笔一划成功绘制了左上角鳄鱼的连线图像,展示了潜在改进方向[19] - 然而,Sora2也仅画对了鳄鱼这一条线,其他模型则一条线也未成功[21] - 团队认为,未来通过让模型进行绘画、临摹等方式进行推理,或许可以恢复大模型文字推理所缺失的能力[21] - 团队总结指出,很难想象一个视觉能力低于3岁儿童的机器人能够可靠地在真实物理世界里帮助人类,未来的模型必须从根本上重建视觉能力,而非依赖语言推理[21]