视觉能力
搜索文档
最新测评集:几乎所有大模型,视觉能力都不如3岁小孩
观察者网· 2026-01-12 20:30
多模态大模型视觉能力评测结果 - 红杉中国xBench与UniPatAI团队发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力[1] - 首轮测试结果显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线[1][4] - 在包含20道视觉中心任务的BabyVision-Mini测试中,大多数顶尖模型得分集中在明显低于3岁儿童平均水平的区间[4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距[4] 模型与人类表现对比 - 在BabyVision-Mini测试中,三岁儿童能凭本能轻松完成垃圾分类连线等视觉任务,而最强的Gemini3-Pro-Preview模型虽写下大段推理过程,最终仍给出错误答案[4][6] - 在包含388道题目的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1%[8] - 大模型方面,在Full测试中表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7%[8] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间[8] 视觉能力系统性缺失的类别 - 评测指出,大模型的不足体现在视觉能力的四大类别上的全方位不足,包括精细辨别、视觉追踪、空间感知以及视觉模式识别,说明存在系统性缺失[10] - 第一类挑战来自“非语言细节”缺失:模型将视觉信息转为语言概括(如“像钩子、有两个腿”)时,细微的像素级差异被抹平,导致选项在token空间里变得“几乎一样”[12] - 第二类挑战体现在轨迹追踪任务:模型将连续路径翻译成“左/右/上/下”的离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”[14] - 第三类挑战是空间想象能力缺失:在三维方块计数等任务中,模型依靠语言推理,但文字描述并非真实三维结构,导致漏掉隐藏块、搞错投影关系[14] - 第四类挑战是图形规律归纳难题:模型会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则[17] 核心原因与潜在改进方向 - 研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中许多题目具有“不可言说”的特性,即无法在不损失信息的情况下被完整语言化[19] - 人类通过指一指、圈一圈、沿线追踪等直觉方式解题,而模型必须将视觉信息压缩为token进行语言化处理,此过程中大量关键细节丢失,最终导致推理失误[19] - 研究团队通过让视觉推理“落地到视觉操作”上,例如Sora2一笔一划成功绘制了左上角鳄鱼的连线图像,展示了潜在改进方向[19] - 然而,Sora2也仅画对了鳄鱼这一条线,其他模型则一条线也未成功[21] - 团队认为,未来通过让模型进行绘画、临摹等方式进行推理,或许可以恢复大模型文字推理所缺失的能力[21] - 团队总结指出,很难想象一个视觉能力低于3岁儿童的机器人能够可靠地在真实物理世界里帮助人类,未来的模型必须从根本上重建视觉能力,而非依赖语言推理[21]
“几乎所有大模型,视觉能力都不如3岁小孩”
观察者网· 2026-01-12 20:21
核心观点 - 一项最新的多模态理解评测显示,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强超过3岁基线,揭示了其在基础视觉能力上存在系统性缺失 [1][4] 评测设计与结果 - 评测集BabyVision-Mini包含20道严格控制语言依赖的视觉中心任务,并设立3岁、6岁、10岁、12岁儿童作为对照组 [4] - 结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间 [4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距 [4] - 在扩展至388道题的全量BabyVision-Full评测中,人类对照组(16位本科以上背景参与者)准确率高达94.1% [8] - 在BabyVision-Full评测中,表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7% [9] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%,其他开源模型得分集中在12%-19%区间 [9] 模型视觉能力的具体短板 - 大模型的视觉能力在四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上存在全方位不足 [10] - 模型面临的第一类挑战是“非语言细节”缺失,将视觉信息压缩为语言概括时,像素级差异被抹平,导致选项在token空间里变得“几乎一样” [12] - 第二类挑战体现在轨迹追踪任务中,模型将连续路径翻译成离散步骤,难以保持连续性,遇到交叉点易产生路径分叉,从“跟随一条线”退化为“猜测终点” [14] - 第三类挑战是空间想象能力缺失,在三维相关任务中,模型依赖不真实的文字描述,导致漏掉隐藏块或搞错投影关系 [14] - 第四类挑战是图形规律归纳难题,模型易关注颜色、形状等外观属性,将“结构规则”误读成“外观统计”,导致迁移时产生幻觉规则 [16] 能力差距的典型案例 - 在一道垃圾分类连线题中,三岁儿童能轻松完成,而最强的Gemini3-Pro-Preview虽写下大段推理过程,最终仍给出错误答案 [6] - 在空间想象任务中,Gemini3-Pro-Preview错误地忽略了积木块,导致计数错误 [16] - 在图形规律任务中,阿里千问成功判断出部分结构,但在选项识别上出现错误 [18] 根本原因与潜在方向 - 造成大模型普遍超低评分的核心原因在于,许多题目具有“不可言说”的特性,无法在不损失信息的情况下被完整语言化 [18] - 人类可通过直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,此过程会丢失大量关键细节,最终导致推理失误 [18] - 研究团队通过让视觉推理“落地到视觉操作”上,例如让Sora2进行一笔一划的绘制,成功完成了部分连线图像,但Sora2也仅画对了其中一条线 [18][20] - 未来或可通过让模型进行绘画、临摹等方式进行推理,以恢复其文字推理所缺失的能力 [20] - 为了推动多模态智能发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理 [20]
GPT-5.2来了,首个“专家级”AI复仇成功,牛马打工人终于得救了
36氪· 2025-12-12 07:58
产品发布与定位 - OpenAI发布GPT-5.2系列模型,包括即时版、思考版和专业版三款,今日全部上线 [1][2] - 该系列模型定位为“地表最强通用模型”,专为解决高难度知识型工作而生 [4] - 此次更新正值公司内部进入“红色代码”紧急状态,旨在集中资源优先开发,但公司高管表示不应将其视为对竞争对手的直接回应 [21] 核心性能提升 - 相比上一代,GPT-5.2在通用智能、超长文本理解、Agent工具调用及视觉能力上实现全面进化 [6] - 在SWE-Bench Pro基准测试中取得55.6%的高分,在LMArena代码竞技场中位列全球第二,在ARC-AGI-2基准测试中以52.9%的绝对优势登顶全球第一 [6] - 在GDPval基准测试中,覆盖44种职业知识,表现超越人类行业专家,成为首个在该测试中表现超过人类专家水平的模型 [6][25] - 在长上下文推理方面树立新标准,在OpenAI MRCRv2基准测试的多种变体(高达256k Token)上达到接近100%的准确率 [53] - 视觉能力显著增强,在图表推理和软件界面理解方面的错误率大约减少了一半 [60] 具体任务表现 - 在GDPval知识工作任务中,GPT-5.2 Thinking在70.9%的情况下击败或打平顶尖行业专业人士,完成任务的速度比专家快11倍,成本低于1% [27] - 在针对初级投资银行分析师电子表格建模的内部测试中,GPT-5.2 Thinking的平均每任务得分比GPT-5.1高出9.3个百分点(从59.1%升至68.4%) [33] - 在编程能力上,GPT-5.2 Thinking在SWE-bench Verified上取得80%的高分,能更可靠地调试生产环境代码、实现功能请求和重构大型代码库 [44] - 幻觉显著减少,在一组去标识化的ChatGPT查询中,包含错误的回答相对减少了30% [49] - 在工具调用和端到端工作流方面表现卓越,在Tau2-bench Telecom上创造了98.7%的新纪录 [64] 模型规格与定价 - 模型知识库更新至2025年8月31日,拥有40万Token的上下文窗口和12.8万Token的最大输出长度 [19] - 相比GPT-5/5.1,GPT-5.2的输入输出价格贵了40% [19] - 具体定价为:GPT-5.2 / gpt-5.2-chat-latest的输入价格为每百万Token 1.75美元,输出价格为14美元;GPT-5.2 Pro的输入价格为21美元,输出价格为168美元 [20] - 尽管每Token成本更高,但由于更高的Token效率,GPT-5.2的性价比反而更高 [88] 行业影响与生态 - 该模型被定位为“打工人的最佳工作模型”,能有效辅助完成创建电子表格、制作演示文稿、编写代码、感知图像等专业任务 [21][22][29] - 公司报告称,ChatGPT每天能为企业用户平均节省40–60分钟,重度用户每周能节省超过10小时 [25] - 在科学研究辅助方面,GPT-5.2 Pro和Thinking是辅助科学家工作的最佳模型,在研究生水平基准GPQA Diamond上分别达到93.2%和92.4%,并已实际参与完成学术论文证明 [70][72][73] - 新模型已向付费ChatGPT用户(Plus、Pro、Go、Business、Enterprise)优先开放,GPT-5.1将继续供付费用户使用三个月后停用 [87] - 开发者可通过Responses API和Chat Completions API使用对应模型,并支持新的第五种推理强度“xhigh” [88]