视觉工具调用 - 财报，业绩电话会，研报，新闻

视觉工具调用

搜索文档

量子位· 2025-12-29 17:01

行业现状与核心问题 - 当前以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，在视觉推理任务中取得了优异表现，突破了传统纯文本CoT的限制 [1] - 然而，行业面临一个新问题：许多模型陷入“盲目用工具”的状态，即使任务不需要也会条件反射式地调用裁剪、抽帧、区域放大等工具 [2] - 这种盲目使用导致推理路径更长、算力消耗更高，但准确率并未同步提升，甚至在部分任务中下降 [3] - 问题的核心并非工具不够强，而是模型没有学会判断“什么时候真的值得用工具” [4] 解决方案：AdaTooler-V 模型 - 来自港中文MMLab等机构的研究团队提出了AdaTooler-V，这是一个具备自适应工具使用能力的多模态推理模型 [4] - 该模型的核心目标是让模型学会判断“该不该用工具”，而不仅仅是“怎么用工具” [4] - 研究团队为此提出了全新的强化学习算法AT-GRPO，用于训练模型的自适应视觉工具调用能力 [12] - AT-GRPO算法的思路是：只有当工具确实带来性能提升时，模型才会获得正向奖励；当工具无效或有害时，工具调用本身会被惩罚 [12] - 实验结果表明，AT-GRPO使模型能够自主学习一种既有利又具备良好泛化能力的推理策略，在优化模型性能的同时有效降低推理成本 [12] 训练方法与数据构建 - 研究团队采用了两阶段训练框架：模型先通过监督微调建立基本的多模态工具推理能力，再通过AT-GRPO学会自适应工具使用 [16] - 为支撑训练，团队构建了两套大规模数据集 [15] - AdaTooler-V-300k数据集用于强化学习阶段，覆盖单图、多图与视频三种模态，涵盖数学、计数、空间理解、逻辑推理等多类任务 [15] - AdaTooler-V-CoT-100k数据集用于监督微调冷启动，包含大量多轮工具交互的高质量推理轨迹 [15] 性能评估与基准测试 - 研究团队在12个主流的图片和视频基准上对AdaTooler-V进行了测评 [6][17] - 在高分辨率视觉推理任务V*上，AdaTooler-V-7B的准确率达到89.8% [6] - 在图片理解基准测试中，AdaTooler-V-7B在多个指标上领先：V*得分为89.8，MME得分为2460.8，InfoVOA得分为86.0，MMBench得分为87.8，MathVista得分为74.5，MMSI-Bench得分为36.8，SPAR-Bench得分为40.3 [18] - 在视频理解任务中，AdaTooler-V同样展现出显著优势：在VSI-Bench上达到49.5%，在VideoHolmes上达到58.3% [18] - 具体视频基准测试结果：当使用128帧时，AdaTooler-V-7B在VSI-Bench得分为49.5%，VideoMMMU得分为56.8%，MVBench得分为71.5%，Video-MME(无字幕)得分为66.7%，Video-Holmes得分为58.3% [19] - 从训练曲线观察到，随着模型准确率持续提升，其平均推理长度逐渐下降，表明模型学会了合理选择是否进行工具调用，而非盲目频繁使用 [19] 工具有效性量化 - 研究团队引入了一个关键指标——Tool Benefit Score，用于量化视觉工具调用所带来的真实性能增益 [9] - 该指标通过比较同一问题在“使用工具”和“未使用工具”两种条件下的表现差异，判断工具调用是否产生了实质性的正向贡献 [9] - 数据显示，在相当一部分样本中，工具的引入不仅未能提升模型性能，反而导致结果出现明显下降 [9]

自适应工具使用

视觉工具调用

Artificial Intelligence

Artificial Intelligence

AdaTooler-V

AT-GRPO算法