文章核心观点 - 当前顶尖多模态大模型在纯视觉理解能力上存在严重缺陷,其能力仅相当于三岁幼儿水平,与人类存在系统性差距[3][4][15] - 视觉理解中的许多核心任务是“无法言说”的,无法在不丢失信息的情况下转化为语言描述,导致依赖文本推理的大模型在基础视觉任务上频繁出错[25][26][31] - 构建像BabyVision这样的评测集,将“看懂世界”的能力拆解为可量化的原子任务,对于诊断模型短板、引导多模态与具身智能发展至关重要[14][49] 评测集设计与方法 - 研究团队发布了名为BabyVision的多模态理解评测集,旨在评估模型不依赖语言的纯视觉能力[3] - 评测集最终包含388道高质量视觉题目,涵盖4大类共22种基础视觉子任务[13][18] - 数据构建过程严谨:参考儿童认知教材,从互联网爬取约4000张候选图片,经人工筛选标注,并实行双盲质检以确保题目质量[18] 核心视觉能力分类 - 精细辨别:分辨细微的视觉差异,包含8个子任务[16] - 视觉追踪:跟随路径、线条与运动轨迹,包含5个子任务[16] - 空间感知:理解三维结构及其关系,包含5个子任务[16] - 视觉模式识别:识别逻辑与几何规律,包含4个子任务[16] 模型与人类表现对比 - 在BabyVision-Mini的20道题测试中,顶尖多模态模型的表现落后于各年龄段儿童,甚至在三岁幼儿的基础视觉任务上失败[7][9] - 在完整的BabyVision评测中,人类基线(16位本科背景测试者)准确率高达94.1%[20][21] - 闭源模型中表现最佳的Gemini3-Pro-Preview准确率为49.7%,距离6岁儿童水平仍差约20个百分点[15][22] - 开源模型中表现最佳的Qwen3VL-235B-Thinking准确率仅为22.2%,多数模型集中在12%至19%区间[21] - 模型能力的落后是系统性的,在四大类视觉能力上均全面下滑,并非单一缺陷[23] 模型面临的核心挑战 - 挑战1:看不见“非语言细节”:模型将视觉信息压缩成语言描述时,像素级错位等细微差异被抹平,导致无法区分相似选项[27][29][32] - 挑战2:追线追丢了:对于连线追踪任务,模型将其转化为离散的方位步骤描述,在路径交叉点时容易“换轨”追错线,而人类本能是连续追踪[30][34][41] - 挑战3:缺少真正的空间想象:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系[36] - 挑战4:图形规律归纳难:模型容易关注表面属性(如颜色、形状),误将“结构规则”理解为“外观统计”,导致在规则迁移时产生幻觉[37][40] 生成式视觉推理的探索 - 研究团队推出了BabyVision-Gen,从原数据集中标注出280道适合生成式作答的题目,要求模型输出图像或视频来展示解题过程[42][48] - 初步评测显示,生成式模型在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注),但整体仍缺乏稳定获得完全正确解的能力[42][48] - 这表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[42] 对行业发展的意义 - 该评测揭示了多模态大模型在迈向通用智能与具身智能道路上的关键瓶颈:基础视觉能力严重不足[44][46] - BabyVision的价值在于为行业提供了可测量、可诊断、可迭代的评估工具,明确了差距所在与发展方向[49] - 现实世界的交互不依赖语言提示,因此补全“看得准、追得住、想得出、归纳得了”的视觉地基是实现可信赖的真实世界AI部署的前提[46][47][51]
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
机器之心·2026-01-12 13:01