BabyVision
搜索文档
五百行代码打造SOTA视觉智能体!UniPat AI最新开源
量子位· 2026-03-16 15:14
文章核心观点 - 多模态大模型的代码能力进步显著,但在基础视觉任务上存在精度短板,常出现计量、计数和空间关系判断错误 [1][2] - 技术团队UniPat AI构建了名为SWE-Vision的极简视觉智能体框架,通过让模型编写并执行Python代码来验证其视觉判断,从而系统性提升视觉任务的精度和可靠性 [1][3] - 在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平,显著改进了GPT-5.2-xhigh和Seed-2.0-Pro等前沿模型的表现 [5] SWE-Vision框架的设计与原理 - **框架定位**:SWE-Vision是一个“极简视觉智能体”框架,其核心不是强迫模型每题写代码,而是为模型提供一个随时可用且熟悉的“视觉工具库” [6][12] - **三层架构**: - **工具层**:仅保留两个通用工具——`execute_code`(在持久化Jupyter环境中执行Python)和`finish`(输出最终答案)[7][8] - **控制层**:实现一个标准的智能体循环,组织消息、调用工具接口、处理执行结果并决定下一步行动 [9] - **执行层**:在Docker容器中启动持久化的Jupyter内核,允许变量、导入的库和图像对象在多次代码调用间保留,确保安全隔离和可复现性 [11][16] - **关键特性**:该框架支持有状态的执行环境、图像输入/输出以及OpenAI function calling标准接口,使模型能够像数据科学家一样进行多步实验和验证 [16][17] SWE-Vision的工作流程与优势 - **工作流程**:用户提供问题和图片后,模型先判断是否需要计算或验证;如需则调用`execute_code`在Notebook中使用PIL、NumPy等库进行分析;代码执行的输出(数值、报错或可视化图)回流给模型;模型迭代此过程直至调用`finish`给出最终答案 [13][15] - **核心优势**:其关键在于“有状态的Notebook”,这使得模型能进行跨多次调用的分步工作,如读图、裁剪、统计、画辅助线等,将多轮工具调用转化为同一会话中的连续实验,从而能处理复杂的多步骤视觉任务 [18] - **能力体现**:框架使模型能够“验证自己的视觉判断”,通过结构化分析、程序化测量和数值验证的闭环,替代传统模型依赖的直觉式观察,显著提升了结果的可信度与可解释性 [19] 性能表现与实验发现 - **基准测试成绩**:在五个视觉基准测试中,SWE-Vision均取得最先进结果,具体为:BabyVision上达到64.4,MathVision上达到94.0,Zero-Bench-Sub上达到50.1,OmniSpatial上达到69.0,CharXiv-RQ上达到82.5 [5] - **提升效果**:在对比实验中,SWE-Vision为GPT-5.2和Seed-2.0等前沿视觉语言模型带来了显著的系统性提升 [22][23] - **反直觉发现**:提升幅度最大的往往不是高阶推理任务,而是最基础的感知和精确处理能力,如BabyVision中的计数、颜色识别和空间关系判断 [28] 设计理念与行业启示 - **极简设计的力量**:SWE-Vision的有效性源于其极简和通用性,它没有为特定视觉任务发明专用工具接口,而是提供了一个通用框架,让模型自行决定何时及如何使用代码工具,这带来了更好的泛化性 [20][21] - **关键成功因素**:工具数量少、决策边界清晰、工具语义与模型现有能力高度一致、支持多轮迭代和状态积累、中间结果可被再次观察,且不绑定特定基准测试的手工策略 [25] - **新方向的揭示**:研究结果表明,对于视觉任务,测试时扩展(test-time scaling)不一定仅依靠“多想几段文字”,也可以通过“多写几行代码”来实现更精细的观察和处理 [29] 未来发展方向 - **数据与环境需求**:要彻底释放“工具增强视觉”的潜力,需要深度交织的视觉-编程监督微调/强化学习数据与交互式环境,使模型能学习感知、行动和反思的完整轨迹 [31] - **具体关键方向**:包括教会模型判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合 [32] - **社区贡献**:SWE-Vision的开源代码和全部实验数据已在GitHub发布,旨在推动编程辅助的精确视觉理解这一方向的共同探索 [32]
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!
机器之心· 2026-03-16 09:31
文章核心观点 - UniPat AI公司构建了一个名为SWE-Vision的极简视觉智能体框架,该框架通过让多模态大模型编写并执行Python代码来处理和验证自身的视觉判断,从而在多个主流视觉基准测试中达到了当前最优水平[1][5][9] 多模态大模型的视觉能力短板 - 尽管多模态大模型的代码能力在过去一年进步惊人,已可比肩资深工程师,但在基础视觉任务(如计量、计数和空间关系判断)上表现并不可靠,经常出错[3] - 模型在视觉理解上的典型问题是“看见了,却无法精确处理”,例如阅读柱状图时只能感知“大约75%”而无法精确计算比值,或在复杂场景中计数时逐一清点出错[3][7] SWE-Vision框架的极简设计 - 该框架的核心设计理念是极简化,工具层仅保留`execute_code`(执行代码)和`finish`(输出答案)两个通用工具,而非提供一堆专用视觉API[11][12] - 控制层实现了一个标准的智能体循环,模型根据问题决定是否调用工具,并可在开启推理模式时进行最多100轮迭代[13] - 执行层采用Docker容器中持久化的Jupyter内核,使得变量、导入库和图像对象等状态能在多次代码调用间保留,支持跨步骤的连续实验[14][22] 系统工作流程与关键特性 - 工作流程类似会看图的数据科学家:模型接收用户问题和图片后,先思考是否需要计算/验证,如需则调用`execute_code`在Notebook环境中用PIL/NumPy等进行分析,代码执行结果(数值/报错/可视化图)回流给模型,模型迭代直至调用`finish`给出最终答案[17][18] - 关键特性包括:有状态的执行环境、Docker沙箱保障安全与复现性、支持图像输入与输出以实现自我验证、以及采用OpenAI function calling标准接口保证兼容性[22][25] 性能表现与基准测试结果 - 在五个主流视觉基准测试中,SWE-Vision均提升了前沿大语言模型的表现并取得了最先进的结果[9] - 具体得分如下:在BabyVision上达到64.4,在MathVision上达到94.0,在Zero-Bench-Sub上达到50.1,在OmniSpatial上达到69.0,在CharXiv-RQ上达到82.5[9] - 提升幅度最大的往往是基础感知和精确处理任务(如计数、颜色识别),而非最复杂的高阶推理任务[34] 设计有效性的原因与行业启示 - 极简设计之所以更强,是因为工具数量少、决策清晰,且工具语义与模型已有的强大代码能力高度一致,这为前沿多模态模型的视觉能力提供了一个有效的测试时扩展方向[26][27][32] - 该框架表明,对于视觉任务,测试时扩展不一定仅靠“多想几段文字”,也可以靠“多写几行代码”来实现更精细的分析[35] - 其价值在于允许模型像一个真正的科学家一样,先做实验再下结论,实现了“先结构化分析、再程序化测量、最后数值验证”的思维与行动闭环[20][24] 未来发展方向 - 要彻底释放“工具增强视觉”的潜力,行业需要更多深度交织的视觉-编程监督微调/强化学习数据与环境,以训练视觉智能体模型[37][38] - 具体的关键方向包括:让模型学会判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合[39][40]
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
量子位· 2026-03-09 10:01
公司核心产品与技术 - 公司UniPat AI发布了一个名为UniScientist的开源项目,这是一个参数为30B的模型,旨在实现“提出假设-收集证据-执行可复现的推导-迭代验证直至结论成立”的完整科学研究闭环[2] - 该模型的核心突破在于将人工智能建模为一个动态系统,并通过自主构建的数据引擎,将开放式的科研难题转化为可验证的“单元测试”[5] - 模型在FrontierScience-Research和ResearchRubrics等权威科学研究榜单上,其表现匹敌甚至超越了参数量大一个数量级的顶尖闭源模型[3] 技术原理与创新 - 模型解决了当前AI在科研任务中普遍存在的“叙事推理”和从“结论”出发的逻辑陷阱问题,实现了真正的“自主科学研究”能力,能够在开放问题中提出假设、证伪推论、修正路径并沉淀为结构化成果[7][8][9][10] - 其数据引擎采用了“进化式多学科合成”方法,将开放式科研成果分解为多个封闭的、可独立验证的Rubric检查项,每个检查项都追求原子化、客观、可证据落地或可形式化推导[24][25][26] - 模型引入了“成果聚合目标”作为额外的训练目标,使模型学会比较、取舍和整合多份候选科研成果,从而产出更完整、更稳健的最终成果,这相当于将“集体科研智能”写入了训练过程[33][34][35] 性能表现与评测结果 - UniScientist-30B-A3B模型(一个仅有3B激活参数的小模型)在FrontierScience-Research评测中达到28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh(25.2分)以及DeepSeek V3.2 w/tools和Seed 2.0 Pro w/tools(均为26.7分)[36][38] - 在成果聚合模式下,该模型的得分进一步提升至33.3分[37] - 在多项分布外的基准(如DeepResearch Bench、DeepResearch Bench II和ResearchRubrics)上,UniScientist的表现与一系列顶级闭源系统实力相当[39] - 即使在无工具的评测条件下,模型性能仍有显著提升,这表明其研究推理能力本身通过训练得到了增强,而非单纯依赖工具使用[40][41] 数据与训练 - 公司构建了高质量的训练数据集,其关键原则是让模型负责规模与多样性,让人类专家负责质量与可验证性[14][16] - 当前数据集已包含超过4700个研究级实例,每个实例附有20+条Rubric项,覆盖50+学科和400+研究方向,专家标注平均每条样本投入1-2小时[26] 未来发展方向 - 系统目前集成了代码解释器,将研究流程从叙事式推理升级为“测试-修正”的循环,但其能力主要集中在可复现推理与仿真计算范围内[44][45] - 公司明确下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,包括大规模GPU任务的可靠调度以及湿实验流程的协调,以加速科学发现[46][47]
AI 真能做研究吗?UniPat AI开源UniScientist,用30B小模型给出肯定答案
机器之心· 2026-03-09 10:00
核心观点 - 公司UniPat AI发布并开源了UniScientist模型,该模型通过实现“假设-证据-验证”的完整科研流程闭环,使人工智能具备了自主进行科学研究的能力,而非仅生成看似研究的文本 [1][6][7] - 该模型以30B(300亿)的参数量,在多个科学研究基准评测中,其性能匹敌甚至超越了参数量大一个数量级的顶尖闭源模型,显示出其在研究智能方面的显著突破 [1][33] 模型能力与设计理念 - 模型的核心是实现了从提出假设、收集证据、执行可复现推导到迭代验证的完整科研闭环,解决了当前多数大模型仅停留在“叙事推理”和格式模仿的问题 [1][4][5][7] - 公司将开放式科研过程形式化为一个基于“主动证据整合”与“模型溯因”的动态系统,系统核心是不断演化的“证据状态”,并通过循环执行产生假说、获取证据、溯因更新三个动作来完成研究 [15][16][17] - 模型引入了“成果聚合目标”的训练,使其能够学会比较、取舍和整合针对同一问题的多份候选科研成果,从而产出更完整和稳健的最终成果,模拟了“集体科研智能” [29][30][31] - 模型集成了代码解释器,将研究流程升级为“测试-修正”循环,假设可以被实例化为可执行、可复现的计算实验,从而得到验证或修正 [39] 数据与训练方法 - 公司构建高质量科研训练数据的关键洞察在于利用“大模型擅长生成”与“人类专家擅长验证”的不对称性,采用模型负责规模与多样性、人类专家负责质量与可验证性的高效分工方式 [9][12] - 公司提出了“进化式多学科合成”数据引擎,其核心设计是将一份开放式科研成果分解为多个封闭的、可独立验证的评估项,每个评估项都追求原子化、客观且可证据落地或形式化推导 [20][21][22] - 当前构建的数据集已包含超过4,700个研究级实例,每个实例附有20条以上的评估项,覆盖50多个学科和400多个研究方向,专家标注平均每条样本投入1-2小时 [22] 性能表现 - 在FrontierScience-Research基准上,UniScientist-30B-A3B模型(仅3B激活参数)得分为28.3分,超越了Claude Opus 4.5(17.5分)、Gemini 3 Pro(12.4分)、GPT-5.2 xhigh completion模式(25.2分)以及工具调用模式下的DeepSeek V3.2(26.7分)和Seed 2.0 Pro(26.7分)[33] - 在成果聚合模式下,该模型在FrontierScience-Research上的得分进一步提升至33.3分 [33] - 在FrontierScience-Olympiad基准上,启用工具的UniScientist得分为71.0分,匹配Claude Opus 4.5,并超越了多个其他前沿模型 [33] - 在多项其他研究基准上,模型的表现与一系列顶级闭源系统相当 [33] - 即使在无工具使用的评测条件下,模型性能仍有显著提升,表明其研究推理能力本身得到了增强,而非单纯依赖工具调用 [34][35] 未来方向 - 系统的当前能力主要集中在可复现推理与仿真计算范围内,下一步方向是将框架扩展到对真实实验与计算基础设施的受控编排与执行,以加速科学发现 [40][41]
榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报
红杉汇· 2026-03-04 10:49
xBench评测体系更新与行业采用 - 春节期间,xBench对多家公司发布的最新模型进行了评测,并更新了Leaderboard榜单 [1] - xBench最新发布的多模态理解评测集BabyVision,已被近期发布的多款模型产品纳入评测体系,包括Seed-2.0、Qwen3.5、Kimi K2.5等,在其公开发布的技术报告中均有引用,体现了社区对该评测集的广泛关注与采用 [1][14] - xBench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单将陆续更新 [1] ScienceQA榜单模型表现 - 在ScienceQA榜单上,头部模型竞争激烈,分差相对紧凑 [5] - **字节跳动Doubao-Seed-2.0-pro (high)**:以69.2的平均分位列国产模型第一,仅次于Google的Gemini 3 Pro(71.6分),其BoN(Best of N,N=5)分数为85.0分 [3][5] - 该模型输出token成本为每百万token 2.28美元,仅为Gemini 3 Pro(12美元)的约四分之一,性价比突出 [3][5] - 其BoN分数(85.0)与平均分(69.2)的差距在2.0阶段明显缩小,表明模型单次推理稳定性提升,高分不再主要依赖多次采样 [5] - **阿里巴巴Qwen3.5-plus**:以65.6分位列第三,较其上一代模型Qwen3-235B-A22B-Thinking-2507的55.0分提升了10.6分,BoN分数保持在77.0,显示出平均表现上的明显跃升 [3][7] - **智谱AI GLM-5**:以65.0分位列第六,较上一版本GLM-4.7的60.8分提升了4.2分,在提升表现的同时,平均响应时间没有明显变化,保持了较高的推理效率 [3][8][9] DeepSearch榜单模型表现 - 在DeepSearch榜单中,**Google Gemini Pro**以53分位列第二,同时每道题平均耗时约1.8分钟,在头部产品中响应效率突出,但token成本也极高,完成100题的成本约为249.99美元 [11] - **OpenAI ChatGPT-5-Pro**以79分位列第一,完成100题的成本约为8.5美元,平均每道题耗时约6.1分钟 [11] BabyVision榜单模型表现 - 在BabyVision多模态理解榜单中,**字节跳动Doubao-Seed-2.0-pro**以62.60%的得分位列第一,大幅领先第二名Google Gemini 3.1 Pro(51.50%)11.10个百分点 [13] - **Google Gemini 3.1 Pro**以51.50%位列第二,较Gemini 3 Pro(49.70%)有小幅提升 [13] - **阿里巴巴Qwen3.5-397B-A17B**以43.3%位列第三,较其上一代模型Qwen3-VL-235B-Thinking(22.20%)显著提升了21.1个百分点 [13] - 该模型采用原生多模态路线,通过早期文本-视觉融合以及扩展的视觉/视频数据训练,实现了更强的多模态理解能力 [13] 重点模型能力与产品迭代方向 - 近期模型迭代呈现出三个清晰方向:全训练阶段的多模态增强、竞争从单点基准测试扩展到更真实长程的Agent任务、构建高效稳定的异步Agent强化学习基础设施 [28] - **字节跳动Seed2.0**:在VLMsAreBiased、VLMsAreBlind、BabyVision等多个多模态基准测试中取得了业界最高分,表明其面对不同类型视觉输入时,能保持准确且可信的感知和判断能力 [15][16] - 其视觉感知能力进一步升级,对复杂文档、表格、图形、视频内容的解析水平显著提升 [29][30] - **阿里巴巴Qwen3.5**:引入混合注意力机制和极致稀疏的MoE架构,以Qwen3.5-Plus为例,总参数量高达3970亿,但推理时仅激活最相关的170亿参数,相比此前的万亿参数Qwen3-Max,部署显存占用降低60%,最大推理吞吐量提升至19倍 [33] - **智谱AI GLM-5**:支持200K长上下文,其突破在于引领AI从Vibe Coding演进到Agentic Engineering,具备极强的全自动代码生成和复杂系统重构能力,能够在极少人工干预下自主完成跨越多个阶段的复杂任务 [34] OpenClaw生态与云端产品化趋势 - OpenClaw在年初迅速出圈,其核心是一套完整的结构化交互范式,用户通过一组可维护的文本文件持续塑造Agent的人格、偏好、工具配置与长期记忆 [21] - 围绕OpenClaw的扩展生态(如ClawHub技能库,包含5000+ skills)进一步放大了其吸引力 [20][21] - **月之暗面Kimi Claw**与**MiniMax MaxClaw**的主要贡献是将OpenClaw从本地极客玩具推向云端产品化,降低了普通用户的技术门槛 [21] - Kimi Claw基于Kimi K2.5模型,定价199元/月,MaxClaw基于MiniMax M2.5模型,定价39元/月 [20] - 当前阶段,云端Claw产品的实际体验差异更多来自产品策略和底层模型能力,而非Claw架构本身 [23] - 评测发现,当前OpenClaw生态在安全架构、权限确认机制、回滚和错误隔离等方面仍存在缺口,更像是一个被舆论放大的新交互范式演示,而非成熟的生产力基础设施 [24] - 安全测试案例显示,不同Claw产品在应对Prompt注入攻击时表现不一,底座模型的安全对齐和平台的结构化防护策略需同时建立以确保安全 [25][26][27]
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
机器之心· 2026-01-12 13:01
文章核心观点 - 当前顶尖多模态大模型在纯视觉理解能力上存在严重缺陷,其能力仅相当于三岁幼儿水平,与人类存在系统性差距[3][4][15] - 视觉理解中的许多核心任务是“无法言说”的,无法在不丢失信息的情况下转化为语言描述,导致依赖文本推理的大模型在基础视觉任务上频繁出错[25][26][31] - 构建像BabyVision这样的评测集,将“看懂世界”的能力拆解为可量化的原子任务,对于诊断模型短板、引导多模态与具身智能发展至关重要[14][49] 评测集设计与方法 - 研究团队发布了名为BabyVision的多模态理解评测集,旨在评估模型不依赖语言的纯视觉能力[3] - 评测集最终包含388道高质量视觉题目,涵盖4大类共22种基础视觉子任务[13][18] - 数据构建过程严谨:参考儿童认知教材,从互联网爬取约4000张候选图片,经人工筛选标注,并实行双盲质检以确保题目质量[18] 核心视觉能力分类 - **精细辨别**:分辨细微的视觉差异,包含8个子任务[16] - **视觉追踪**:跟随路径、线条与运动轨迹,包含5个子任务[16] - **空间感知**:理解三维结构及其关系,包含5个子任务[16] - **视觉模式识别**:识别逻辑与几何规律,包含4个子任务[16] 模型与人类表现对比 - 在BabyVision-Mini的20道题测试中,顶尖多模态模型的表现落后于各年龄段儿童,甚至在三岁幼儿的基础视觉任务上失败[7][9] - 在完整的BabyVision评测中,人类基线(16位本科背景测试者)准确率高达94.1%[20][21] - 闭源模型中表现最佳的Gemini3-Pro-Preview准确率为49.7%,距离6岁儿童水平仍差约20个百分点[15][22] - 开源模型中表现最佳的Qwen3VL-235B-Thinking准确率仅为22.2%,多数模型集中在12%至19%区间[21] - 模型能力的落后是系统性的,在四大类视觉能力上均全面下滑,并非单一缺陷[23] 模型面临的核心挑战 - **挑战1:看不见“非语言细节”**:模型将视觉信息压缩成语言描述时,像素级错位等细微差异被抹平,导致无法区分相似选项[27][29][32] - **挑战2:追线追丢了**:对于连线追踪任务,模型将其转化为离散的方位步骤描述,在路径交叉点时容易“换轨”追错线,而人类本能是连续追踪[30][34][41] - **挑战3:缺少真正的空间想象**:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系[36] - **挑战4:图形规律归纳难**:模型容易关注表面属性(如颜色、形状),误将“结构规则”理解为“外观统计”,导致在规则迁移时产生幻觉[37][40] 生成式视觉推理的探索 - 研究团队推出了BabyVision-Gen,从原数据集中标注出280道适合生成式作答的题目,要求模型输出图像或视频来展示解题过程[42][48] - 初步评测显示,生成式模型在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注),但整体仍缺乏稳定获得完全正确解的能力[42][48] - 这表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[42] 对行业发展的意义 - 该评测揭示了多模态大模型在迈向通用智能与具身智能道路上的关键瓶颈:基础视觉能力严重不足[44][46] - BabyVision的价值在于为行业提供了可测量、可诊断、可迭代的评估工具,明确了差距所在与发展方向[49] - 现实世界的交互不依赖语言提示,因此补全“看得准、追得住、想得出、归纳得了”的视觉地基是实现可信赖的真实世界AI部署的前提[46][47][51]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
新浪财经· 2026-01-12 09:57
多模态大模型视觉能力评测 - 红杉中国xbench与UniPat AI团队联合发布新的多模态理解评测集BabyVision,旨在测评大模型在不依赖语言提示时的纯视觉理解能力[1][33] - 评测核心观点指出,当前多模态大模型在语言与文本推理上突飞猛进,但在需要“看懂”而非“说清”的视觉问题上能力仍明显不足[1][33] - 评测设计理念是避免视觉问题退化为可完全用文字描述的文本题,从而迫使模型展现真正的视觉基础能力:比较、追踪、空间想象、模式归纳[1][33] 评测方法与设计 - BabyVision将视觉能力拆解为4大类共22个子任务,包括精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务)和视觉模式识别(4个子任务)[2][10][34][42] - 评测集构建参考了儿童认知教材和视觉发育测验,通过种子示例从互联网爬取约4000张候选图片,并经过严格的人工标注与双盲质检,最终产出388道高质量视觉题目[9][11][41][43] - 为确保“纯视觉”考核,团队在数据收集时过滤掉包含大量文字或需要文化常识的图片,并确保每道题的答案可通过视觉推理得出[11][43] 评测结果与表现差距 - 人类基线准确率高达94.1%(基于16位至少本科背景的测试者完成全量388题)[11][43] - 闭源模型中表现最强的Gemini3-Pro-Preview准确率为49.7%,其后GPT-5.2为34.8%、Doubao-1.8为30.2%[2][12][34][44] - 开源模型中表现最强的Qwen3VL-235B-Thinking整体准确率为22.2%,多数开源模型准确率在12%至19%区间[2][12][34][44] - 在BabyVision-Mini(20道题)的对比实验中,大多数模型分数低于平均3岁儿童,Gemini3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点[4][6][36][38] 模型能力短板分析 - 评测结果显示,模型在四大类视觉能力上表现均全面下滑,表明存在“系统性缺基础视觉能力”问题,而非单点缺陷[12][44] - 一些子任务如“Count 3D Blocks”在多模型中普遍表现极低,暴露了模型在结构化场景理解上的严重不足[12][44] - 关键原因在于许多视觉题目是“unspeakable”的,即视觉细节难以被无损压缩成语言token,模型若采用先复述再推理的语言捷径,关键信息会在压缩过程中丢失[2][14][34][46] 视觉任务面临的典型挑战 - 挑战1“非语言细节”:模型将形状概括为语言描述时,会抹平像素级错位等细微差异,导致选项在token空间里变得“几乎一样”[14][16][46][48] - 挑战2“追线追丢了”:在连线/轨迹题中,模型将连续路径翻译为离散的“左/右/上/下”步骤,遇到交叉点时易“换轨”追错线,而人类本能是锁定一条线追踪至终点[6][16][19][38][48][51] - 挑战3“缺少真正的空间想象”:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系,而人类是在脑中构建并旋转立体结构[19][21][51][53] - 挑战4“图形规律归纳难”:模型常关注表面属性(颜色、形状),误将“结构规则”解读为“外观统计”,导致在规则迁移时产生幻觉,而人类抽象的是关系映射与变换规则[21][23][53][55] 生成式推理的新方向 - BabyVision-Gen从原基准中重标注出280道适合生成式作答的题目,要求模型用图像或视频输出解题过程或答案[2][24][34][56] - 在BabyVision-Gen上评测多种生成模型(如Nano-Banana-Pro、Qwen-Image、Veo-3、Sora-2)发现,生成式推理在视觉追踪、精细辨别等任务上表现出“更像人类”的行为(如画轨迹、做标注)[23][55] - 自动评测工具与人工评测的一致性达到96%,但生成模型整体仍缺乏稳定到达完全正确解的能力[2][24][34][56] - 该方向表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[23][55] 评测集的价值与意义 - BabyVision的价值在于将“看懂世界”拆解为22个可测量、可诊断、可迭代的原子能力,为多模态与具身智能(embodied AI)补齐视觉短板提供了明确的路线图[3][29][35][61] - 评测突显了补强视觉地基对于实现真正通用智能与具身智能的必要性,即需要“看得准、追得住、想得出、归纳得了”[28][60] - 该评测属于红杉中国xbench双轨评估体系中的AGI Tracking赛道,用于追踪模型的AGI演进进程[1][30][33][62] xbench评估体系介绍 - xbench采用双轨评估体系,分为AGI Tracking赛道与Profession Aligned赛道,旨在同时追踪模型的理论能力上限与其在真实世界中的经济与实用价值[1][30][33][62] - 该体系采用长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[30][62] - xbench在AGI Track首期发布了科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),BabyVision是其多模态评估集,后续将发布面向Agent指令遵循的AgentIF等评测集[31][63] - xbench此前已构建面向招聘和营销领域的垂类Agent评测框架,后续计划发布覆盖生物技术、金融、法律等场景的垂类评测集[32][64]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
红杉汇· 2026-01-12 09:04
文章核心观点 - 红杉中国xbench与UniPat AI团队联合发布名为BabyVision的全新多模态理解评测集 旨在量化评估大模型的基础视觉原子能力 揭示其与人类在“看懂世界”上存在的巨大差距 [1] - 评测结果显示 当前顶尖多模态大模型的视觉理解能力普遍低于3岁儿童 表明模型存在“系统性缺基础视觉能力”的问题 而非单一缺陷 [2][4][13] - 视觉问题的核心挑战在于其“unspeakable”特性 即无法在不丢失信息的情况下被完整语言化 模型试图将视觉信息压缩为文本token会导致关键细节丢失 从而无法进行真正的视觉推理 [14][15] - 研究团队提出通过生成式视觉推理(如画图、描线)可能是补齐模型视觉短板的一个方向 并为此开发了BabyVision-Gen评测集进行探索 [26][27][28] - BabyVision的价值在于将复杂的“看懂世界”能力拆解为22个可测量、可诊断的原子视觉任务 为多模态大模型的未来发展提供了明确的迭代与改进方向 [9][32] 评测背景与设计理念 - 该评测属于红杉中国xbench双轨评估体系中AGI Tracking赛道下的多模态评估集 旨在追踪模型的AGI演进进程 [1] - 评测设计核心理念是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力 这是具身智能走向现实世界的必修课 [9] - 为避免模型通过语言推理走捷径 评测严格控制语言依赖 题目要求简单 答案必须依靠视觉信息本身得出 [2] 评测数据集构建 - 研究团队参考儿童认知教材和视觉发育测验 梳理出4大类共22种基础视觉子任务 [9] - 通过逆向图像搜索和关键词搜索从互联网爬取约4000张候选图片 并严格筛选版权合规、不含大量文字或需文化常识的素材 [9] - 经过专业人员人工标注、设计问题与答案 并进行“双盲质检” 最终产出388道高质量视觉题目 [10] 视觉能力分类 - 视觉能力被提炼为四大核心类别:视觉模式识别(4个子任务)、精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务) [9][11] 评测结果分析 - 人类基线测试(16位至少本科背景者)在388道题上的准确率达到94.1% [13] - 闭源最强模型Gemini3‑Pro‑Preview的准确率为49.7% 是唯一稳定超过3岁儿童基线的模型 但距离6岁儿童仍差约20个百分点 [4][13] - 开源侧最强模型Qwen3VL‑235B‑Thinking整体准确率为22.2% 多数模型准确率在12–19%区间 [13] - 模型在四大类视觉能力上表现均落后 差距并非集中在单一类别 属于系统性缺陷 [13] - 在某些子任务上模型几乎“全员翻车” 例如Count 3D Blocks任务普遍表现偏低 [13] 模型面临的核心挑战 - **挑战1:无法处理“非语言细节”** 在拼图/补全等任务中 模型将形状用语言概括会抹平像素级的细微差异 导致选项在token空间里变得“几乎一样” [16][17] - **挑战2:视觉追踪能力薄弱** 在连线/轨迹题中 人类本能地沿线追踪 而模型将线翻译为离散的方位步骤 遇到交叉点容易“换轨”追错线 [8][20] - **挑战3:缺乏真正的空间想象** 在三维方块计数等任务中 人类在脑中构建3D结构 而模型缺少稳定的3D内部表征与变换能力 容易漏掉隐藏块或搞错投影关系 [21][23] - **挑战4:图形规律归纳困难** 在视觉模式归纳任务中 人类抽象的是关系映射与变换规则 而模型容易误读为表面属性的统计 导致迁移时产生幻觉规则 [24][26] 生成式视觉推理的探索 - 研究团队推出BabyVision‑Gen评测集 从原基准中标注出280道适合“生成式作答”的题目 要求模型输出图像或视频来表达解题过程或答案 [26][27] - 开发了自动评测工具 与人工评测的一致性达到96% [27] - 初步结论显示 生成式推理在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注) 但整体仍缺乏稳定到达完全正确解的能力 [28] - 这表明将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径 [28] 评测的意义与行业影响 - 视觉能力是通用智能与具身智能走向现实世界的基础 很难想象视觉能力低于3岁孩子的机器人能在真实物理世界中可靠地帮助人类 [32] - BabyVision将“看懂世界”拆解为可测量、可诊断、可迭代的22个原子能力 明确了当前多模态大模型的差距所在 为行业下一步发展提供了引导 [32] - 展望2026年 世界模型与视觉多模态预计将迎来新一轮突破性进展 此次评测旨在迎接并参与新一轮技术突破的到来 [1]