文章核心观点 - 提出了一种名为“混合视觉思维”的自适应视觉推理范式,旨在将纯文本和视觉基础两种推理模式整合到单一模型内部,并使其能够根据问题上下文自适应选择最佳推理模式 [13] - 为学习该范式,提出了一个名为AdaVaR的两阶段训练框架,通过监督微调学习不同推理模式,并设计了专门的AdaGRPO强化学习算法来引导模型进行模式选择 [14] - 实验表明,基于该框架训练的AdaVaR-3B和AdaVaR-7B模型在多个视觉推理任务上实现了通用性能提升,其中AdaVaR-3B平均性能媲美Qwen2.5-VL-7B,而AdaVaR-7B甚至超越了GPT-4o [15][26] 视觉推理的不同思考模式 - 当前大型视觉语言模型主要有两种主流推理模式:纯文本思考模式和视觉基础思考模式 [5][9] - 纯文本思考模式擅长处理抽象的视觉问题,但在需要精确定位的任务上表现不佳 [12] - 视觉基础思考模式更善于定位和利用视觉信息,抑制幻觉,但在处理抽象数学概念时提升有限 [12] 混合视觉思维范式与AdaVaR框架 - 混合视觉思维范式的目标是构建一个统一的推理模型,使其同时具备多种思考能力,并能根据问题自适应选择模式 [13] - AdaVaR框架第一阶段通过引入特殊的前缀标记来区分不同推理模式,并利用监督微调整合数据,使模型学会不同模式的思考过程 [14][17][19] - 第二阶段通过AdaGRPO强化学习算法引导模型进行模式选择,该算法通过固定前缀引导探索,并设计了一种结合推理路径层面和模式层面优势的双层次优势计算方法 [14][20][23] 实验结果与性能表现 - 在8个不同场景的数据集上评测,AdaVaR模型在数学导向和通用场景任务上均表现出一致的性能提升,而单模式模型通常只在特定领域表现突出 [15][25][26] - 具体数据显示,AdaVaR-3B在8个数据集上的平均准确率达到50.84%,超越了所有其他基于Qwen2.5-VL-3B的推理模型 [25] - AdaVaR-7B的平均准确率达到55.82%,超越了GPT-4o的53.20%,并且在MathVista、WeMath、POPE等任务上达到最优性能 [25][26] 自适应推理机制的深入分析 - 研究表明,将两种模式整合到一个模型内是有效的,且不会抑制单个模式的性能提升,但需要显式的前缀标记来区分模式 [30][31][32] - 两种模式具有互补性,在所有数据集上,两个模式中任意一个能做对的“理论上限”准确率均高于单一模式的表现 [33] - 强化学习阶段使模型学会了合理的模式选择能力,例如在数学问题上主要选择文本模式,在物体相关问题上主要选择基础视觉模式 [35] - 模型模式选择能力的学习过程可分为初期探索、稳定选择和精细微调三个阶段,最终自适应模式性能优于任一单一模式 [37]
ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升
机器之心·2026-02-05 12:35