Workflow
Gemini 3 Pro Preview
icon
搜索文档
最强大模型的视觉能力不如6岁小孩
36氪· 2026-01-22 21:10
多模态大模型视觉推理能力现状评估 - 当前顶尖多模态大模型在BabyVision视觉推理基准测试中表现不佳,能力仅相当于或低于三岁儿童水平 [1] - 表现最强的闭源模型Gemini 3 Pro Preview得分为49.7%,与六岁儿童相比仍有20%的差距,与成年人94.1的水平相比更是天壤之别 [1][4] - 其他前沿模型如GPT-5.2、Claude 4.5 Opus、Grok-4等整体表现甚至不如三岁小孩 [5] 主流模型在基准测试中的具体表现 - 在闭源模型中,Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) [10] - 其余闭源模型表现不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2% [11] - 在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%,但仍无法与顶尖闭源系统匹敌 [12][13] 当前模型架构的核心缺陷与瓶颈 - 当前多模态大模型通常先将视觉输入转化为语言表征来处理,这导致无法被语言准确表达的视觉信息在过程中丢失 [14][15] - 这种“视觉问题语言化”的处理方式,使得模型在处理细粒度几何信息、精确空间关系等“不可描述”的视觉特征时面临根本性限制 [15][19] - 研究指出,要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行” [7] 模型在四大视觉核心能力维度的具体挑战 - **细粒度辨别**:模型难以处理非言语性精细细节,如小的偏移、特定边界曲线或像素级差异,常将不同选项当作类似处理 [19] - **视觉追踪**:模型难以在长距离空间中可靠维持感知一致性,例如在连线任务中容易在交叉点走岔 [22][25][26] - **空间感知**:模型缺乏从二维图像构建稳定三维内部表征并进行心理变换的“空间想象力”,容易漏掉被遮挡物体或使用错误投影关系 [28][31] - **视觉模式识别**:模型难以从少量视觉示例中总结通用变化规则,其常见做法是数属性而非理解“发生了什么变化” [32][34] 提升视觉推理能力的潜在技术路径 - **基于可验证奖励的强化学习**:以Qwen3-VL-8B-Thinking为基座进行RLVR微调后,模型整体准确率从13.1%提升至17.9%,提升了4.8个百分点 [35][36] - RLVR微调在细粒度辨别、空间感知和视觉模式识别子任务上分别带来6.8、5.9和5.9个百分点的提升 [36] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen评估了生成模型直接输出图像或视频流来表达解题过程的能力 [37] - 在280道题目上,NanoBanana-Pro准确率达18.3%,GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8% [38] - 生成模型展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,支持“生成本身即是推理的一种高级形式”的观点 [39][44] 行业未来发展趋势 - 研究揭示了一个关键趋势:将生成模型转化为原生多模态推理器,以绕过“语言瓶颈” [44] - 像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征,允许模型在视觉空间内进行“显式思考” [44] - Sora 2和Veo 3等模型在建模物理动力学与空间关系上的能力,进一步支持了视觉生成作为高级推理形式的观点 [44]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
全球大模型密集升级强化AI主线,关注恒生科技ETF易方达(513010)等产品投资价值
每日经济新闻· 2025-12-08 15:15
海外大模型技术演进 - 海外大模型迎来新一轮升级,技术演进方向明确 [1] - Gemini 3 Pro Preview引入深度推理模式,大幅提升复杂任务处理能力 [1] - Sora App开放与Anthropic Claude Opus 4.5在智能体领域取得突破,AI正加速向消费级应用与高执行力形态渗透 [1] 国内大模型技术进展 - DeepSeek发布V3.2正式版与V3.2-Speciale,推理能力在行业中处于领先位置 [1] - 模型在“思考模式+工具调用”融合上实现提升,复杂任务执行与推理效率进一步增强 [1] 行业发展趋势主线 - 本轮大模型更新潮呈现“推理深化、智能体增强、多模态普及”三条主线 [1] - 行业正向更高可靠性、更强执行力与更广应用形态迈进 [1] 港股科技龙头投资前景 - 对于港股科技龙头,大模型商业化路径清晰、生态扩张空间大 [1] - 有助于提升盈利端的可见度与估值修复斜率 [1] - 在估值仍具吸引力、产业趋势逐步强化背景下,港股科技龙头的中长期配置价值继续凸显 [1] 相关指数与ETF产品 - 恒生科技指数由港股中与科技主题高度相关的、市值最大的30只股票组成,聚焦AI产业链、互联网等高成长赛道,实现“软硬协同”布局 [2] - 中证港股通互联网指数由港股通范围内30家涉及互联网相关业务的股票组成,覆盖多家AI应用领域核心龙头企业 [2] - 跟踪以上指数的恒生科技ETF易方达(513010)和港股通互联网ETF(513040)近期频繁获资金加仓 [2] - 恒生科技ETF易方达(513010)最新规模达257亿元,创历史新高 [2] - 港股通互联网ETF(513040)最新规模达73亿元,创历史新高 [2] - 看好大模型等AI应用领域的投资者可通过以上产品一键打包相关龙头企业 [2]