核心观点 - 多模态AI处理图像的方式正发生根本性转变,从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式,这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法,使开源小模型能习得动态编排工具进行多步推理的能力,而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力,标志着多模态AI从“匆匆一瞥”式的一次性处理,转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式,但前者定位为开源、可复现的学术研究,后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约,导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能,让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - Tool Cold Start (TC):训练数据中刻意包含“犯错-修正”场景,让模型学习工具选择、调用时机及失败处理,提升鲁棒性[20][21] - Tool-GRPO (TG):通过专门的强化学习优化多轮工具编排过程,并将工具使用训练为“不确定时的可靠后备”,而非强制流程[23][24] - Adaptive Learning (ADL):通过工具名、参数名随机化和工具描述改写,迫使模型学习工具语义而非死记硬背名称,提升泛化能力[25] 性能表现与关键数据 - 整体提升:AdaReasoner-7B模型相对于基础模型,在选取的8个基准测试上平均性能提升**+24.9%[31] - 关键任务表现: - 在VSP任务上,基础模型得分为28.09**,经过TC+TG训练后达到97.64[34] - 在Jigsaw任务上,基础模型得分为45.70,经过TC+TG训练后达到96.60,超过了GPT-5的80.10[34] - 在VSP Navigation子任务上,引入A工具并通过RL训练后,性能从44.83提升至96.33[37] - 工具使用效率:在Jigsaw任务上,模型平均每样本调用工具3.54次,工具执行成功率高达98.50%,最终任务准确率达88.60%[47] 模型习得的自适应行为 - 采纳有用工具:在强化学习阶段,模型能逐步提高对新引入工具(如A)的调用频率并掌握其用法[37] - 丢弃无关工具:模型能学会抑制对当前任务无用甚至有害的工具调用,例如在Verify任务中压制A*工具的使用,使性能维持在99.20的高分[41][42] - 调节调用频率:模型能根据子任务需求动态调整工具调用强度,例如Point工具在Navigation任务中调用更频繁(约3.2次/样本),在Verification任务中则更克制(约1.0次/样本)[44] 泛化与稳健性 - 通过ADL训练,模型能够将从一个任务(如Jigsaw)上学到的智能体规划能力,迁移到监督微调阶段未见过的其他任务上,提升其表现[49] - 当工具规划能力足够好时,模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要,“会用工具”成为最直接的能力放大器[52]
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
机器之心·2026-02-15 14:46