ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

核心观点 - 多模态AI处理图像的方式正发生根本性转变，从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式，这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法，使开源小模型能习得动态编排工具进行多步推理的能力，而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力，标志着多模态AI从“匆匆一瞥”式的一次性处理，转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式，但前者定位为开源、可复现的学术研究，后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约，导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能，让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - Tool Cold Start (TC)：训练数据中刻意包含“犯错-修正”场景，让模型学习工具选择、调用时机及失败处理，提升鲁棒性[20][21] - Tool-GRPO (TG)：通过专门的强化学习优化多轮工具编排过程，并将工具使用训练为“不确定时的可靠后备”，而非强制流程[23][24] - Adaptive Learning (ADL)：通过工具名、参数名随机化和工具描述改写，迫使模型学习工具语义而非死记硬背名称，提升泛化能力[25] 性能表现与关键数据 - 整体提升：AdaReasoner-7B模型相对于基础模型，在选取的8个基准测试上平均性能提升**+24.9%[31] - 关键任务表现： - 在VSP任务上，基础模型得分为28.09**，经过TC+TG训练后达到97.64[34] - 在Jigsaw任务上，基础模型得分为45.70，经过TC+TG训练后达到96.60，超过了GPT-5的80.10[34] - 在VSP Navigation子任务上，引入A工具并通过RL训练后，性能从44.83提升至96.33[37] - 工具使用效率：在Jigsaw任务上，模型平均每样本调用工具3.54次，工具执行成功率高达98.50%，最终任务准确率达88.60%[47] 模型习得的自适应行为 - 采纳有用工具：在强化学习阶段，模型能逐步提高对新引入工具（如A）的调用频率并掌握其用法[37] - 丢弃无关工具：模型能学会抑制对当前任务无用甚至有害的工具调用，例如在Verify任务中压制A*工具的使用，使性能维持在99.20的高分[41][42] - 调节调用频率：模型能根据子任务需求动态调整工具调用强度，例如Point工具在Navigation任务中调用更频繁（约3.2次/样本），在Verification任务中则更克制（约1.0次/样本）[44] 泛化与稳健性 - 通过ADL训练，模型能够将从一个任务（如Jigsaw）上学到的智能体规划能力，迁移到监督微调阶段未见过的其他任务上，提升其表现[49] - 当工具规划能力足够好时，模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要，“会用工具”成为最直接的能力放大器[52]