多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
新浪财经·2026-01-12 09:57

多模态大模型视觉能力评测 - 红杉中国xbench与UniPat AI团队联合发布新的多模态理解评测集BabyVision,旨在测评大模型在不依赖语言提示时的纯视觉理解能力[1][33] - 评测核心观点指出,当前多模态大模型在语言与文本推理上突飞猛进,但在需要“看懂”而非“说清”的视觉问题上能力仍明显不足[1][33] - 评测设计理念是避免视觉问题退化为可完全用文字描述的文本题,从而迫使模型展现真正的视觉基础能力:比较、追踪、空间想象、模式归纳[1][33] 评测方法与设计 - BabyVision将视觉能力拆解为4大类共22个子任务,包括精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务)和视觉模式识别(4个子任务)[2][10][34][42] - 评测集构建参考了儿童认知教材和视觉发育测验,通过种子示例从互联网爬取约4000张候选图片,并经过严格的人工标注与双盲质检,最终产出388道高质量视觉题目[9][11][41][43] - 为确保“纯视觉”考核,团队在数据收集时过滤掉包含大量文字或需要文化常识的图片,并确保每道题的答案可通过视觉推理得出[11][43] 评测结果与表现差距 - 人类基线准确率高达94.1%(基于16位至少本科背景的测试者完成全量388题)[11][43] - 闭源模型中表现最强的Gemini3-Pro-Preview准确率为49.7%,其后GPT-5.2为34.8%、Doubao-1.8为30.2%[2][12][34][44] - 开源模型中表现最强的Qwen3VL-235B-Thinking整体准确率为22.2%,多数开源模型准确率在12%至19%区间[2][12][34][44] - 在BabyVision-Mini(20道题)的对比实验中,大多数模型分数低于平均3岁儿童,Gemini3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点[4][6][36][38] 模型能力短板分析 - 评测结果显示,模型在四大类视觉能力上表现均全面下滑,表明存在“系统性缺基础视觉能力”问题,而非单点缺陷[12][44] - 一些子任务如“Count 3D Blocks”在多模型中普遍表现极低,暴露了模型在结构化场景理解上的严重不足[12][44] - 关键原因在于许多视觉题目是“unspeakable”的,即视觉细节难以被无损压缩成语言token,模型若采用先复述再推理的语言捷径,关键信息会在压缩过程中丢失[2][14][34][46] 视觉任务面临的典型挑战 - 挑战1“非语言细节”:模型将形状概括为语言描述时,会抹平像素级错位等细微差异,导致选项在token空间里变得“几乎一样”[14][16][46][48] - 挑战2“追线追丢了”:在连线/轨迹题中,模型将连续路径翻译为离散的“左/右/上/下”步骤,遇到交叉点时易“换轨”追错线,而人类本能是锁定一条线追踪至终点[6][16][19][38][48][51] - 挑战3“缺少真正的空间想象”:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系,而人类是在脑中构建并旋转立体结构[19][21][51][53] - 挑战4“图形规律归纳难”:模型常关注表面属性(颜色、形状),误将“结构规则”解读为“外观统计”,导致在规则迁移时产生幻觉,而人类抽象的是关系映射与变换规则[21][23][53][55] 生成式推理的新方向 - BabyVision-Gen从原基准中重标注出280道适合生成式作答的题目,要求模型用图像或视频输出解题过程或答案[2][24][34][56] - 在BabyVision-Gen上评测多种生成模型(如Nano-Banana-Pro、Qwen-Image、Veo-3、Sora-2)发现,生成式推理在视觉追踪、精细辨别等任务上表现出“更像人类”的行为(如画轨迹、做标注)[23][55] - 自动评测工具与人工评测的一致性达到96%,但生成模型整体仍缺乏稳定到达完全正确解的能力[2][24][34][56] - 该方向表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[23][55] 评测集的价值与意义 - BabyVision的价值在于将“看懂世界”拆解为22个可测量、可诊断、可迭代的原子能力,为多模态与具身智能(embodied AI)补齐视觉短板提供了明确的路线图[3][29][35][61] - 评测突显了补强视觉地基对于实现真正通用智能与具身智能的必要性,即需要“看得准、追得住、想得出、归纳得了”[28][60] - 该评测属于红杉中国xbench双轨评估体系中的AGI Tracking赛道,用于追踪模型的AGI演进进程[1][30][33][62] xbench评估体系介绍 - xbench采用双轨评估体系,分为AGI Tracking赛道与Profession Aligned赛道,旨在同时追踪模型的理论能力上限与其在真实世界中的经济与实用价值[1][30][33][62] - 该体系采用长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[30][62] - xbench在AGI Track首期发布了科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),BabyVision是其多模态评估集,后续将发布面向Agent指令遵循的AgentIF等评测集[31][63] - xbench此前已构建面向招聘和营销领域的垂类Agent评测框架,后续计划发布覆盖生物技术、金融、法律等场景的垂类评测集[32][64]