最强大模型的视觉能力不如6岁小孩
36氪·2026-01-22 21:10

多模态大模型视觉推理能力现状评估 - 当前顶尖多模态大模型在BabyVision视觉推理基准测试中表现不佳,能力仅相当于或低于三岁儿童水平 [1] - 表现最强的闭源模型Gemini 3 Pro Preview得分为49.7%,与六岁儿童相比仍有20%的差距,与成年人94.1的水平相比更是天壤之别 [1][4] - 其他前沿模型如GPT-5.2、Claude 4.5 Opus、Grok-4等整体表现甚至不如三岁小孩 [5] 主流模型在基准测试中的具体表现 - 在闭源模型中,Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) [10] - 其余闭源模型表现不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2% [11] - 在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%,但仍无法与顶尖闭源系统匹敌 [12][13] 当前模型架构的核心缺陷与瓶颈 - 当前多模态大模型通常先将视觉输入转化为语言表征来处理,这导致无法被语言准确表达的视觉信息在过程中丢失 [14][15] - 这种“视觉问题语言化”的处理方式,使得模型在处理细粒度几何信息、精确空间关系等“不可描述”的视觉特征时面临根本性限制 [15][19] - 研究指出,要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行” [7] 模型在四大视觉核心能力维度的具体挑战 - 细粒度辨别:模型难以处理非言语性精细细节,如小的偏移、特定边界曲线或像素级差异,常将不同选项当作类似处理 [19] - 视觉追踪:模型难以在长距离空间中可靠维持感知一致性,例如在连线任务中容易在交叉点走岔 [22][25][26] - 空间感知:模型缺乏从二维图像构建稳定三维内部表征并进行心理变换的“空间想象力”,容易漏掉被遮挡物体或使用错误投影关系 [28][31] - 视觉模式识别:模型难以从少量视觉示例中总结通用变化规则,其常见做法是数属性而非理解“发生了什么变化” [32][34] 提升视觉推理能力的潜在技术路径 - 基于可验证奖励的强化学习:以Qwen3-VL-8B-Thinking为基座进行RLVR微调后,模型整体准确率从13.1%提升至17.9%,提升了4.8个百分点 [35][36] - RLVR微调在细粒度辨别、空间感知和视觉模式识别子任务上分别带来6.8、5.9和5.9个百分点的提升 [36] - 基于生成模型的视觉推理:研究通过BabyVision-Gen评估了生成模型直接输出图像或视频流来表达解题过程的能力 [37] - 在280道题目上,NanoBanana-Pro准确率达18.3%,GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8% [38] - 生成模型展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,支持“生成本身即是推理的一种高级形式”的观点 [39][44] 行业未来发展趋势 - 研究揭示了一个关键趋势:将生成模型转化为原生多模态推理器,以绕过“语言瓶颈” [44] - 像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征,允许模型在视觉空间内进行“显式思考” [44] - Sora 2和Veo 3等模型在建模物理动力学与空间关系上的能力,进一步支持了视觉生成作为高级推理形式的观点 [44]