主动工具使用 - 财报，业绩电话会，研报，新闻

主动工具使用

搜索文档

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

机器之心· 2026-02-15 14:46

核心观点 - 多模态AI处理图像的方式正发生根本性转变，从静态识别升级为具备“思考-行动-观察”循环的主动调查模式[7] - 学术界与工业界同时押注“主动工具使用”范式，这正成为多模态推理的主流方向[11] - AdaReasoner的核心价值在于提出了一套训练方法，使开源小模型能习得动态编排工具进行多步推理的能力，而不仅仅是验证范式有效[11] 技术范式与行业趋势 - Google为其轻量级模型Gemini 3 Flash引入“Agentic Vision”能力，标志着多模态AI从“匆匆一瞥”式的一次性处理，转变为可迭代的主动推理模式[7][8] - AdaReasoner与Google Agentic Vision实现了几乎相同的“Think-Act-Observe”范式，但前者定位为开源、可复现的学术研究，后者为闭源产品级集成[10] - 多模态推理的痛点在于“感知不够精确”与“多步推理”互相制约，导致模型在细节上容易进行猜测[13] - 该范式的核心是将工具使用本身作为一种需要学习的通用推理技能，让模型学会在何时、如何使用何种工具[16][17] AdaReasoner训练方法设计 - **Tool Cold Start (TC)**：训练数据中刻意包含“犯错-修正”场景，让模型学习工具选择、调用时机及失败处理，提升鲁棒性[20][21] - **Tool-GRPO (TG)**：通过专门的强化学习优化多轮工具编排过程，并将工具使用训练为“不确定时的可靠后备”，而非强制流程[23][24] - **Adaptive Learning (ADL)**：通过工具名、参数名随机化和工具描述改写，迫使模型学习工具语义而非死记硬背名称，提升泛化能力[25] 性能表现与关键数据 - **整体提升**：AdaReasoner-7B模型相对于基础模型，在选取的8个基准测试上平均性能提升**+24.9%**[31] - **关键任务表现**： - 在**VSP**任务上，基础模型得分为**28.09**，经过TC+TG训练后达到**97.64**[34] - 在**Jigsaw**任务上，基础模型得分为**45.70**，经过TC+TG训练后达到**96.60**，超过了GPT-5的**80.10**[34] - 在**VSP Navigation**子任务上，引入A*工具并通过RL训练后，性能从**44.83**提升至**96.33**[37] - **工具使用效率**：在Jigsaw任务上，模型平均每样本调用工具**3.54**次，工具执行成功率高达**98.50%**，最终任务准确率达**88.60%**[47] 模型习得的自适应行为 - **采纳有用工具**：在强化学习阶段，模型能逐步提高对新引入工具（如A*）的调用频率并掌握其用法[37] - **丢弃无关工具**：模型能学会抑制对当前任务无用甚至有害的工具调用，例如在Verify任务中压制A*工具的使用，使性能维持在**99.20**的高分[41][42] - **调节调用频率**：模型能根据子任务需求动态调整工具调用强度，例如Point工具在Navigation任务中调用更频繁（约**3.2**次/样本），在Verification任务中则更克制（约**1.0**次/样本）[44] 泛化与稳健性 - 通过ADL训练，模型能够将从一个任务（如Jigsaw）上学到的智能体规划能力，迁移到监督微调阶段未见过的其他任务上，提升其表现[49] - 当工具规划能力足够好时，模型性能的瓶颈将从“模型规模”部分迁移到“工具效用与工具规划能力”本身[36] - 这套方法对于参数有限的小模型尤为重要，“会用工具”成为最直接的能力放大器[52]

主动工具使用

多模态推理

Artificial Intelligence

Artificial Intelligence

AdaReasoner

Gemini 3 Flash

GPT-5