多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
红杉汇·2026-01-12 09:04

文章核心观点 - 红杉中国xbench与UniPat AI团队联合发布名为BabyVision的全新多模态理解评测集 旨在量化评估大模型的基础视觉原子能力 揭示其与人类在“看懂世界”上存在的巨大差距 [1] - 评测结果显示 当前顶尖多模态大模型的视觉理解能力普遍低于3岁儿童 表明模型存在“系统性缺基础视觉能力”的问题 而非单一缺陷 [2][4][13] - 视觉问题的核心挑战在于其“unspeakable”特性 即无法在不丢失信息的情况下被完整语言化 模型试图将视觉信息压缩为文本token会导致关键细节丢失 从而无法进行真正的视觉推理 [14][15] - 研究团队提出通过生成式视觉推理(如画图、描线)可能是补齐模型视觉短板的一个方向 并为此开发了BabyVision-Gen评测集进行探索 [26][27][28] - BabyVision的价值在于将复杂的“看懂世界”能力拆解为22个可测量、可诊断的原子视觉任务 为多模态大模型的未来发展提供了明确的迭代与改进方向 [9][32] 评测背景与设计理念 - 该评测属于红杉中国xbench双轨评估体系中AGI Tracking赛道下的多模态评估集 旨在追踪模型的AGI演进进程 [1] - 评测设计核心理念是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力 这是具身智能走向现实世界的必修课 [9] - 为避免模型通过语言推理走捷径 评测严格控制语言依赖 题目要求简单 答案必须依靠视觉信息本身得出 [2] 评测数据集构建 - 研究团队参考儿童认知教材和视觉发育测验 梳理出4大类共22种基础视觉子任务 [9] - 通过逆向图像搜索和关键词搜索从互联网爬取约4000张候选图片 并严格筛选版权合规、不含大量文字或需文化常识的素材 [9] - 经过专业人员人工标注、设计问题与答案 并进行“双盲质检” 最终产出388道高质量视觉题目 [10] 视觉能力分类 - 视觉能力被提炼为四大核心类别:视觉模式识别(4个子任务)、精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务) [9][11] 评测结果分析 - 人类基线测试(16位至少本科背景者)在388道题上的准确率达到94.1% [13] - 闭源最强模型Gemini3‑Pro‑Preview的准确率为49.7% 是唯一稳定超过3岁儿童基线的模型 但距离6岁儿童仍差约20个百分点 [4][13] - 开源侧最强模型Qwen3VL‑235B‑Thinking整体准确率为22.2% 多数模型准确率在12–19%区间 [13] - 模型在四大类视觉能力上表现均落后 差距并非集中在单一类别 属于系统性缺陷 [13] - 在某些子任务上模型几乎“全员翻车” 例如Count 3D Blocks任务普遍表现偏低 [13] 模型面临的核心挑战 - 挑战1:无法处理“非语言细节” 在拼图/补全等任务中 模型将形状用语言概括会抹平像素级的细微差异 导致选项在token空间里变得“几乎一样” [16][17] - 挑战2:视觉追踪能力薄弱 在连线/轨迹题中 人类本能地沿线追踪 而模型将线翻译为离散的方位步骤 遇到交叉点容易“换轨”追错线 [8][20] - 挑战3:缺乏真正的空间想象 在三维方块计数等任务中 人类在脑中构建3D结构 而模型缺少稳定的3D内部表征与变换能力 容易漏掉隐藏块或搞错投影关系 [21][23] - 挑战4:图形规律归纳困难 在视觉模式归纳任务中 人类抽象的是关系映射与变换规则 而模型容易误读为表面属性的统计 导致迁移时产生幻觉规则 [24][26] 生成式视觉推理的探索 - 研究团队推出BabyVision‑Gen评测集 从原基准中标注出280道适合“生成式作答”的题目 要求模型输出图像或视频来表达解题过程或答案 [26][27] - 开发了自动评测工具 与人工评测的一致性达到96% [27] - 初步结论显示 生成式推理在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注) 但整体仍缺乏稳定到达完全正确解的能力 [28] - 这表明将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径 [28] 评测的意义与行业影响 - 视觉能力是通用智能与具身智能走向现实世界的基础 很难想象视觉能力低于3岁孩子的机器人能在真实物理世界中可靠地帮助人类 [32] - BabyVision将“看懂世界”拆解为可测量、可诊断、可迭代的22个原子能力 明确了当前多模态大模型的差距所在 为行业下一步发展提供了引导 [32] - 展望2026年 世界模型与视觉多模态预计将迎来新一轮突破性进展 此次评测旨在迎接并参与新一轮技术突破的到来 [1]