视觉能力 - 财报，业绩电话会，研报，新闻

视觉能力

搜索文档

观察者网· 2026-01-12 20:30

多模态大模型视觉能力评测结果 - 红杉中国xBench与UniPatAI团队发布全新多模态理解评测集BabyVision，旨在精准测评大模型的核心视觉能力[1] - 首轮测试结果显示，当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平，仅有一款模型勉强超过3岁基线[1][4] - 在包含20道视觉中心任务的BabyVision-Mini测试中，大多数顶尖模型得分集中在明显低于3岁儿童平均水平的区间[4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线，但与6岁儿童相比仍存在约20个百分点的差距[4] 模型与人类表现对比 - 在BabyVision-Mini测试中，三岁儿童能凭本能轻松完成垃圾分类连线等视觉任务，而最强的Gemini3-Pro-Preview模型虽写下大段推理过程，最终仍给出错误答案[4][6] - 在包含388道题目的全量BabyVision-Full评测中，人类对照组（16位本科以上背景参与者）准确率高达94.1%[8] - 大模型方面，在Full测试中表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7%[8] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%，其他开源模型得分集中在12%-19%区间[8] 视觉能力系统性缺失的类别 - 评测指出，大模型的不足体现在视觉能力的四大类别上的全方位不足，包括精细辨别、视觉追踪、空间感知以及视觉模式识别，说明存在系统性缺失[10] - 第一类挑战来自“非语言细节”缺失：模型将视觉信息转为语言概括（如“像钩子、有两个腿”）时，细微的像素级差异被抹平，导致选项在token空间里变得“几乎一样”[12] - 第二类挑战体现在轨迹追踪任务：模型将连续路径翻译成“左/右/上/下”的离散步骤，难以保持连续性，遇到交叉点易产生路径分叉，导致从“跟随一条线”退化为“猜测终点”[14] - 第三类挑战是空间想象能力缺失：在三维方块计数等任务中，模型依靠语言推理，但文字描述并非真实三维结构，导致漏掉隐藏块、搞错投影关系[14] - 第四类挑战是图形规律归纳难题：模型会关注图像的颜色、形状等属性，将“结构规则”误读成“外观统计”，导致迁移时幻觉规则[17] 核心原因与潜在改进方向 - 研究团队认为，造成大模型普遍超低评分的核心原因在于，测试集中许多题目具有“不可言说”的特性，即无法在不损失信息的情况下被完整语言化[19] - 人类通过指一指、圈一圈、沿线追踪等直觉方式解题，而模型必须将视觉信息压缩为token进行语言化处理，此过程中大量关键细节丢失，最终导致推理失误[19] - 研究团队通过让视觉推理“落地到视觉操作”上，例如Sora2一笔一划成功绘制了左上角鳄鱼的连线图像，展示了潜在改进方向[19] - 然而，Sora2也仅画对了鳄鱼这一条线，其他模型则一条线也未成功[21] - 团队认为，未来通过让模型进行绘画、临摹等方式进行推理，或许可以恢复大模型文字推理所缺失的能力[21] - 团队总结指出，很难想象一个视觉能力低于3岁儿童的机器人能够可靠地在真实物理世界里帮助人类，未来的模型必须从根本上重建视觉能力，而非依赖语言推理[21]

Gemini3-Pro-Preview模型

Qwen3VL - 235B - Thinking模型

Gemini3-Pro-Preview模型

Qwen3VL - 235B - Thinking模型

“几乎所有大模型，视觉能力都不如3岁小孩”

观察者网· 2026-01-12 20:21

核心观点 - 一项最新的多模态理解评测显示，当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平，仅有一款模型勉强超过3岁基线，揭示了其在基础视觉能力上存在系统性缺失 [1][4] 评测设计与结果 - 评测集BabyVision-Mini包含20道严格控制语言依赖的视觉中心任务，并设立3岁、6岁、10岁、12岁儿童作为对照组 [4] - 结果显示，大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间 [4] - 唯一表现较好的Gemini3-Pro-Preview模型仅能勉强超过3岁基线，但与6岁儿童相比仍存在约20个百分点的差距 [4] - 在扩展至388道题的全量BabyVision-Full评测中，人类对照组（16位本科以上背景参与者）准确率高达94.1% [8] - 在BabyVision-Full评测中，表现最佳的闭源模型Gemini3-Pro-Preview准确率仅为49.7% [9] - 开源模型中最强的Qwen3VL-235B-Thinking整体准确率不足22.2%，其他开源模型得分集中在12%-19%区间 [9] 模型视觉能力的具体短板 - 大模型的视觉能力在四大类别（精细辨别、视觉追踪、空间感知以及视觉模式识别）上存在全方位不足 [10] - 模型面临的第一类挑战是“非语言细节”缺失，将视觉信息压缩为语言概括时，像素级差异被抹平，导致选项在token空间里变得“几乎一样” [12] - 第二类挑战体现在轨迹追踪任务中，模型将连续路径翻译成离散步骤，难以保持连续性，遇到交叉点易产生路径分叉，从“跟随一条线”退化为“猜测终点” [14] - 第三类挑战是空间想象能力缺失，在三维相关任务中，模型依赖不真实的文字描述，导致漏掉隐藏块或搞错投影关系 [14] - 第四类挑战是图形规律归纳难题，模型易关注颜色、形状等外观属性，将“结构规则”误读成“外观统计”，导致迁移时产生幻觉规则 [16] 能力差距的典型案例 - 在一道垃圾分类连线题中，三岁儿童能轻松完成，而最强的Gemini3-Pro-Preview虽写下大段推理过程，最终仍给出错误答案 [6] - 在空间想象任务中，Gemini3-Pro-Preview错误地忽略了积木块，导致计数错误 [16] - 在图形规律任务中，阿里千问成功判断出部分结构，但在选项识别上出现错误 [18] 根本原因与潜在方向 - 造成大模型普遍超低评分的核心原因在于，许多题目具有“不可言说”的特性，无法在不损失信息的情况下被完整语言化 [18] - 人类可通过直觉式方式解题，但模型必须将视觉信息压缩为token进行语言化处理，此过程会丢失大量关键细节，最终导致推理失误 [18] - 研究团队通过让视觉推理“落地到视觉操作”上，例如让Sora2进行一笔一划的绘制，成功完成了部分连线图像，但Sora2也仅画对了其中一条线 [18][20] - 未来或可通过让模型进行绘画、临摹等方式进行推理，以恢复其文字推理所缺失的能力 [20] - 为了推动多模态智能发展，未来的模型必须从根本上重建视觉能力，而非依赖语言推理 [20]

Qwen3VL-235B-Thinking

Qwen3VL-235B-Thinking

GPT-5.2来了，首个“专家级”AI复仇成功，牛马打工人终于得救了

36氪· 2025-12-12 07:58

产品发布与定位 - OpenAI发布GPT-5.2系列模型，包括即时版、思考版和专业版三款，今日全部上线 [1][2] - 该系列模型定位为“地表最强通用模型”，专为解决高难度知识型工作而生 [4] - 此次更新正值公司内部进入“红色代码”紧急状态，旨在集中资源优先开发，但公司高管表示不应将其视为对竞争对手的直接回应 [21] 核心性能提升 - 相比上一代，GPT-5.2在通用智能、超长文本理解、Agent工具调用及视觉能力上实现全面进化 [6] - 在SWE-Bench Pro基准测试中取得55.6%的高分，在LMArena代码竞技场中位列全球第二，在ARC-AGI-2基准测试中以52.9%的绝对优势登顶全球第一 [6] - 在GDPval基准测试中，覆盖44种职业知识，表现超越人类行业专家，成为首个在该测试中表现超过人类专家水平的模型 [6][25] - 在长上下文推理方面树立新标准，在OpenAI MRCRv2基准测试的多种变体（高达256k Token）上达到接近100%的准确率 [53] - 视觉能力显著增强，在图表推理和软件界面理解方面的错误率大约减少了一半 [60] 具体任务表现 - 在GDPval知识工作任务中，GPT-5.2 Thinking在70.9%的情况下击败或打平顶尖行业专业人士，完成任务的速度比专家快11倍，成本低于1% [27] - 在针对初级投资银行分析师电子表格建模的内部测试中，GPT-5.2 Thinking的平均每任务得分比GPT-5.1高出9.3个百分点（从59.1%升至68.4%） [33] - 在编程能力上，GPT-5.2 Thinking在SWE-bench Verified上取得80%的高分，能更可靠地调试生产环境代码、实现功能请求和重构大型代码库 [44] - 幻觉显著减少，在一组去标识化的ChatGPT查询中，包含错误的回答相对减少了30% [49] - 在工具调用和端到端工作流方面表现卓越，在Tau2-bench Telecom上创造了98.7%的新纪录 [64] 模型规格与定价 - 模型知识库更新至2025年8月31日，拥有40万Token的上下文窗口和12.8万Token的最大输出长度 [19] - 相比GPT-5/5.1，GPT-5.2的输入输出价格贵了40% [19] - 具体定价为：GPT-5.2 / gpt-5.2-chat-latest的输入价格为每百万Token 1.75美元，输出价格为14美元；GPT-5.2 Pro的输入价格为21美元，输出价格为168美元 [20] - 尽管每Token成本更高，但由于更高的Token效率，GPT-5.2的性价比反而更高 [88] 行业影响与生态 - 该模型被定位为“打工人的最佳工作模型”，能有效辅助完成创建电子表格、制作演示文稿、编写代码、感知图像等专业任务 [21][22][29] - 公司报告称，ChatGPT每天能为企业用户平均节省40–60分钟，重度用户每周能节省超过10小时 [25] - 在科学研究辅助方面，GPT-5.2 Pro和Thinking是辅助科学家工作的最佳模型，在研究生水平基准GPQA Diamond上分别达到93.2%和92.4%，并已实际参与完成学术论文证明 [70][72][73] - 新模型已向付费ChatGPT用户（Plus、Pro、Go、Business、Enterprise）优先开放，GPT-5.1将继续供付费用户使用三个月后停用 [87] - 开发者可通过Responses API和Chat Completions API使用对应模型，并支持新的第五种推理强度“xhigh” [88]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence