Workflow
主动工具使用
icon
搜索文档
ICLR 2026 | 7B小模型干翻GPT-5?AdaResoner实现Agentic Vision的主动「视觉工具思考」
机器之心· 2026-02-15 14:46
核心观点 - 多模态AI处理图像的方式正发生根本性转变,从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式,这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法,使开源小模型能习得动态编排工具进行多步推理的能力,而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力,标志着多模态AI从“匆匆一瞥”式的一次性处理,转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式,但前者定位为开源、可复现的学术研究,后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约,导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能,让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - **Tool Cold Start (TC)**:训练数据中刻意包含“犯错-修正”场景,让模型学习工具选择、调用时机及失败处理,提升鲁棒性[20][21] - **Tool-GRPO (TG)**:通过专门的强化学习优化多轮工具编排过程,并将工具使用训练为“不确定时的可靠后备”,而非强制流程[23][24] - **Adaptive Learning (ADL)**:通过工具名、参数名随机化和工具描述改写,迫使模型学习工具语义而非死记硬背名称,提升泛化能力[25] 性能表现与关键数据 - **整体提升**:AdaReasoner-7B模型相对于基础模型,在选取的8个基准测试上平均性能提升**+24.9%**[31] - **关键任务表现**: - 在**VSP**任务上,基础模型得分为**28.09**,经过TC+TG训练后达到**97.64**[34] - 在**Jigsaw**任务上,基础模型得分为**45.70**,经过TC+TG训练后达到**96.60**,超过了GPT-5的**80.10**[34] - 在**VSP Navigation**子任务上,引入A*工具并通过RL训练后,性能从**44.83**提升至**96.33**[37] - **工具使用效率**:在Jigsaw任务上,模型平均每样本调用工具**3.54**次,工具执行成功率高达**98.50%**,最终任务准确率达**88.60%**[47] 模型习得的自适应行为 - **采纳有用工具**:在强化学习阶段,模型能逐步提高对新引入工具(如A*)的调用频率并掌握其用法[37] - **丢弃无关工具**:模型能学会抑制对当前任务无用甚至有害的工具调用,例如在Verify任务中压制A*工具的使用,使性能维持在**99.20**的高分[41][42] - **调节调用频率**:模型能根据子任务需求动态调整工具调用强度,例如Point工具在Navigation任务中调用更频繁(约**3.2**次/样本),在Verification任务中则更克制(约**1.0**次/样本)[44] 泛化与稳健性 - 通过ADL训练,模型能够将从一个任务(如Jigsaw)上学到的智能体规划能力,迁移到监督微调阶段未见过的其他任务上,提升其表现[49] - 当工具规划能力足够好时,模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要,“会用工具”成为最直接的能力放大器[52]