视觉推理
搜索文档
ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升
机器之心· 2026-02-05 12:35
文章核心观点 - 提出了一种名为“混合视觉思维”的自适应视觉推理范式,旨在将纯文本和视觉基础两种推理模式整合到单一模型内部,并使其能够根据问题上下文自适应选择最佳推理模式 [13] - 为学习该范式,提出了一个名为AdaVaR的两阶段训练框架,通过监督微调学习不同推理模式,并设计了专门的AdaGRPO强化学习算法来引导模型进行模式选择 [14] - 实验表明,基于该框架训练的AdaVaR-3B和AdaVaR-7B模型在多个视觉推理任务上实现了通用性能提升,其中AdaVaR-3B平均性能媲美Qwen2.5-VL-7B,而AdaVaR-7B甚至超越了GPT-4o [15][26] 视觉推理的不同思考模式 - 当前大型视觉语言模型主要有两种主流推理模式:纯文本思考模式和视觉基础思考模式 [5][9] - 纯文本思考模式擅长处理抽象的视觉问题,但在需要精确定位的任务上表现不佳 [12] - 视觉基础思考模式更善于定位和利用视觉信息,抑制幻觉,但在处理抽象数学概念时提升有限 [12] 混合视觉思维范式与AdaVaR框架 - 混合视觉思维范式的目标是构建一个统一的推理模型,使其同时具备多种思考能力,并能根据问题自适应选择模式 [13] - AdaVaR框架第一阶段通过引入特殊的前缀标记来区分不同推理模式,并利用监督微调整合数据,使模型学会不同模式的思考过程 [14][17][19] - 第二阶段通过AdaGRPO强化学习算法引导模型进行模式选择,该算法通过固定前缀引导探索,并设计了一种结合推理路径层面和模式层面优势的双层次优势计算方法 [14][20][23] 实验结果与性能表现 - 在8个不同场景的数据集上评测,AdaVaR模型在数学导向和通用场景任务上均表现出一致的性能提升,而单模式模型通常只在特定领域表现突出 [15][25][26] - 具体数据显示,AdaVaR-3B在8个数据集上的平均准确率达到50.84%,超越了所有其他基于Qwen2.5-VL-3B的推理模型 [25] - AdaVaR-7B的平均准确率达到55.82%,超越了GPT-4o的53.20%,并且在MathVista、WeMath、POPE等任务上达到最优性能 [25][26] 自适应推理机制的深入分析 - 研究表明,将两种模式整合到一个模型内是有效的,且不会抑制单个模式的性能提升,但需要显式的前缀标记来区分模式 [30][31][32] - 两种模式具有互补性,在所有数据集上,两个模式中任意一个能做对的“理论上限”准确率均高于单一模式的表现 [33] - 强化学习阶段使模型学会了合理的模式选择能力,例如在数学问题上主要选择文本模式,在物体相关问题上主要选择基础视觉模式 [35] - 模型模式选择能力的学习过程可分为初期探索、稳定选择和精细微调三个阶段,最终自适应模式性能优于任一单一模式 [37]
最强大模型的视觉能力不如6岁小孩
36氪· 2026-01-22 21:10
多模态大模型视觉推理能力现状评估 - 当前顶尖多模态大模型在BabyVision视觉推理基准测试中表现不佳,能力仅相当于或低于三岁儿童水平 [1] - 表现最强的闭源模型Gemini 3 Pro Preview得分为49.7%,与六岁儿童相比仍有20%的差距,与成年人94.1的水平相比更是天壤之别 [1][4] - 其他前沿模型如GPT-5.2、Claude 4.5 Opus、Grok-4等整体表现甚至不如三岁小孩 [5] 主流模型在基准测试中的具体表现 - 在闭源模型中,Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) [10] - 其余闭源模型表现不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2% [11] - 在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%,但仍无法与顶尖闭源系统匹敌 [12][13] 当前模型架构的核心缺陷与瓶颈 - 当前多模态大模型通常先将视觉输入转化为语言表征来处理,这导致无法被语言准确表达的视觉信息在过程中丢失 [14][15] - 这种“视觉问题语言化”的处理方式,使得模型在处理细粒度几何信息、精确空间关系等“不可描述”的视觉特征时面临根本性限制 [15][19] - 研究指出,要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行” [7] 模型在四大视觉核心能力维度的具体挑战 - **细粒度辨别**:模型难以处理非言语性精细细节,如小的偏移、特定边界曲线或像素级差异,常将不同选项当作类似处理 [19] - **视觉追踪**:模型难以在长距离空间中可靠维持感知一致性,例如在连线任务中容易在交叉点走岔 [22][25][26] - **空间感知**:模型缺乏从二维图像构建稳定三维内部表征并进行心理变换的“空间想象力”,容易漏掉被遮挡物体或使用错误投影关系 [28][31] - **视觉模式识别**:模型难以从少量视觉示例中总结通用变化规则,其常见做法是数属性而非理解“发生了什么变化” [32][34] 提升视觉推理能力的潜在技术路径 - **基于可验证奖励的强化学习**:以Qwen3-VL-8B-Thinking为基座进行RLVR微调后,模型整体准确率从13.1%提升至17.9%,提升了4.8个百分点 [35][36] - RLVR微调在细粒度辨别、空间感知和视觉模式识别子任务上分别带来6.8、5.9和5.9个百分点的提升 [36] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen评估了生成模型直接输出图像或视频流来表达解题过程的能力 [37] - 在280道题目上,NanoBanana-Pro准确率达18.3%,GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8% [38] - 生成模型展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,支持“生成本身即是推理的一种高级形式”的观点 [39][44] 行业未来发展趋势 - 研究揭示了一个关键趋势:将生成模型转化为原生多模态推理器,以绕过“语言瓶颈” [44] - 像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征,允许模型在视觉空间内进行“显式思考” [44] - Sora 2和Veo 3等模型在建模物理动力学与空间关系上的能力,进一步支持了视觉生成作为高级推理形式的观点 [44]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
速递|种子轮即达5000万美元:前谷歌、苹果研究人员创办AI初创企业
Z Potentials· 2026-01-12 11:20
公司动态:Elorian的创立与融资 - 前谷歌DeepMind资深AI研究员Andrew Dai与前苹果研究员杨寅飞联合创立了一家专注于开发多模态AI模型的新创公司Elorian [1] - 公司正在与投资者洽谈约5000万美元的种子轮融资 Striker Venture Partners基金正洽谈领投本轮融资 [1] - Elorian专注于开发能同步处理图像、视频和音频以视觉化解读与分析物理世界的人工智能模型 机器人技术是其潜在应用方向之一 [1] 行业趋势:视觉推理领域的发展 - 人工智能模型的训练正从早期仅接受文本训练转向图像与视频训练模式 视觉推理已成为谷歌、OpenAI、Anthropic及亚马逊等大型公司的重点研究方向 [2] - 视觉推理模型专为机器人系统等复杂AI应用设计 其整合多重功能的能力可免除开发者拼接不同AI模型的工作量 [2] - 该技术对需要解读和理解图像的人工智能代理具有重要价值 可支持处理零售产品退货、审阅法律文件等高级任务 [2] 创始人背景与技术专长 - 联合创始人Andrew Dai拥有14年AI研究经验 在谷歌DeepMind期间曾共同领导以数据为核心的预训练工作 为Gemini系列模型奠定基础 [2] - Andrew Dai是语言模型领域的先驱 过去二十年间持续从事预训练相关研究 其大量研究聚焦于开发评估AI模型训练数据质量的技术并确保模型接受多元差异数据源的训练 [2] - 联合创始人杨寅飞在去年12月离职苹果前曾参与Elorian人工智能模型的研发 [1]
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理
机器之心· 2025-09-30 16:45
核心观点 - FSDrive提出“时空视觉链式思考”方法,以统一的未来图像帧作为中间推理步骤,替代传统的文字或符号中介,旨在解决自动驾驶多模态大模型在推理过程中的时空关系模糊与信息丢失问题 [2][7] - 该方法的核心创新在于让模型直接“以图思考”,联合预测未来场景与感知结果,在视觉域内完成因果推断与决策规划,推动自动驾驶从“符号推理”走向“视觉推理” [7][28] 技术创新 - 提出统一的“视觉中介”替代文字或符号中介,通过生成包含红色车道线和3D检测框的未来图像帧作为时空CoT,消除跨模态语义鸿沟 [7][8] - 以极小代价在现成多模态大语言模型上激活图像生成能力:仅通过扩展词表引入视觉token,无需改动模型架构或进行海量训练 [8][19] - 采用渐进式视觉CoT训练策略,先生成受物理约束的粗粒度感知图,再生成细节丰富的未来帧,显式注入物理合理性以提升预测真实性与一致性 [8][14][19] 方法框架 - 框架采用统一预训练范式,兼具理解与生成能力,输入为环视图像与任务指令,输出为统一未来帧和最终轨迹 [12][13] - 模型扮演双重角色:首先生成未来统一帧作为“世界模型”,然后作为“逆动力学模型”进行轨迹规划 [13][27] - 训练分为两个阶段:第一阶段进行统一预训练,混合训练视觉问答、未来帧生成及渐进式感知生成;第二阶段进行有监督微调,联合优化场景理解与轨迹规划 [19] 性能表现 - 在端到端轨迹规划任务中,基于Qwen2-VL-2B模型的FSDrive在ST-P3指标上平均L2误差为0.53米,碰撞率为0.19%;在UniAD指标上平均L2误差为0.96米,碰撞率为0.40%,优于对比方法 [17][29] - 在未来帧生成质量上,FSDrive在128×192分辨率下FID得分达到10.1,优于多数扩散式世界模型,兼顾了实时性与生成质量 [21][22] - 在场景理解任务中,FSDrive的Final Score达到0.57,多项语言生成指标与多选准确率表现稳健,验证了其“理解+生成”统一预训练的有效性 [23][25]
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-22 07:32
核心观点 - 提出一种名为时空思维链(spatio-temporal CoT)的新型推理方法,旨在解决现有视觉语言模型在自动驾驶中因使用离散文本思维链而导致的信息丢失问题 [1] - 该方法使视觉语言模型能够以可视化方式思考,通过生成统一图像帧来预测未来世界状态,从而增强轨迹规划能力 [1][5] - 提出统一的视觉生成与理解预训练范式,并设计渐进式生成策略,仅需极少量数据(约为现有方法的0.3%)即可激活模型的视觉生成潜力 [6][12] 技术方法 - 时空思维链推理:视觉语言模型作为世界模型生成统一图像帧,其中用红色车道分隔线和3D检测框表征未来空间关系,用普通未来帧表征时间演化动态关系 [5][16] - 统一视觉生成与理解预训练:基于现有MLLM架构,通过将VQ-VAE的图像码本加入大模型词汇表来扩展词汇空间,使其具备预测图像token的能力 [10][12] - 渐进式图像生成:采用由易到难的生成策略,先推理车道线token和3D检测框token以施加物理约束,再生成完整的未来帧补充细粒度细节 [6][15] 实验结果 - 在nuScenes数据集上的端到端轨迹规划实验中,FSDrive方法在多个指标上表现优异,例如在使用自车状态时,其L2距离在3秒预测 horizon 上达到0.46米,碰撞率为0.21% [19] - 在未来帧生成任务中,FSDrive取得了10.1的FID分数,优于对比方法如DriveDreamer(52.6 FID)和GenAD(15.4 FID) [20] - 在DriveLM GVQA基准测试中,FSDrive的最终得分达到0.57,准确率为72%,优于OminiDrive(0.56分,70%准确率)和Cube-LLM(0.50分,39%准确率) [22]
当AI成“视觉神探”,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 15:18
行业技术发展动态 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备不依赖搜索工具精准识别图像细节及推测拍摄地点的能力 [1] - 视觉推理成为大模型竞争焦点 OpenAI、谷歌、豆包、通义千问等国内外企业均推出多模态视觉推理模型 [1][5] - 豆包APP在实测中实现100%地理位置识别准确率 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2][3] - 典型地标(如国家跳台滑雪中心、杭州西湖)识别准确率最高 模糊信息场景下模型表现出现显著差异 [3][4] - 联网功能显著提升识别准确度 豆包通过联网搜索比对实现100%准确率 [4] 技术能力细节 - 模型优先依据地标、人物、文字等关键元素进行推理 在包含明确文字信息的图片中表现更优 [3][4] - 智谱GLM-4.5V在"图寻游戏"全球积分赛中击败99%人类玩家 体现其超越人类的速度与精度 [6] - 豆包支持图片放大、裁剪及搜索功能 通义千问支持图像解析与视频分析 技术功能持续升级 [5] 应用与风险关注 - 多模态大语言模型可大幅降低非专业人员从社交媒体图像提取用户位置数据的门槛 [6] - 具备视觉推理能力的大模型目前均可免费使用 且未对敏感信息识别请求进行限制 [7] - 研究显示11个先进多模态模型在地理位置推断方面始终优于非专业人士 构成潜在隐私威胁 [6]
当AI成”视觉神探“,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 15:09
视觉推理技术发展现状 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备精准图像细节识别和地理位置推理能力 [1] - OpenAI、谷歌、豆包、通义千问等国内外公司竞相推出具备视觉推理能力的大模型 强调多模态水平 [1] - 视觉推理能力成为大模型性能发力点 技术发展迅速 新模型不断涌现 [6] 多模态模型实测表现 - 豆包APP在5张测试图片中准确率达100% 表现最优 [2] - 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2] - 地标照片识别准确率最高 如国家跳台滑雪中心和杭州西湖均被三个模型准确识别 [3][4] - 豆包凭借联网搜索能力显著提升准确率 在识别人民大学校训石时通过联网比对得出正确答案 [4][5] 技术应用与隐私风险 - 多模态大语言模型在地理位置推断方面优于非专业人士 大幅降低从社交媒体图像提取用户位置数据的门槛 [7] - 智谱GLM-4.5V在"图寻游戏"中击败99%人类玩家 体现其超越人类的速度与精度 [7] - 实测显示三个大模型均可免费使用 在看图定位时未限制使用范围 且未拒绝识别人物身份的敏感指令 [8] - 研究表明确位置推断能力可能构成严重的隐私威胁 [7]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 11:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 09:05
豆包AI功能更新 - 豆包在手机场景下使用频率较高,尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能,可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费,实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档,验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节,在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处,准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象(爱迪、盖亚)及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题,完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份,包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低,曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点,实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力,能快速串联分散线索形成认知闭环 [76][77]