Workflow
视觉工具调用
icon
搜索文档
必须得让AI明白,有些不该碰的东西别碰(doge)
量子位· 2025-12-29 17:01
行业现状与核心问题 - 当前以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,在视觉推理任务中取得了优异表现,突破了传统纯文本CoT的限制 [1] - 然而,行业面临一个新问题:许多模型陷入“盲目用工具”的状态,即使任务不需要也会条件反射式地调用裁剪、抽帧、区域放大等工具 [2] - 这种盲目使用导致推理路径更长、算力消耗更高,但准确率并未同步提升,甚至在部分任务中下降 [3] - 问题的核心并非工具不够强,而是模型没有学会判断“什么时候真的值得用工具” [4] 解决方案:AdaTooler-V 模型 - 来自港中文MMLab等机构的研究团队提出了AdaTooler-V,这是一个具备自适应工具使用能力的多模态推理模型 [4] - 该模型的核心目标是让模型学会判断“该不该用工具”,而不仅仅是“怎么用工具” [4] - 研究团队为此提出了全新的强化学习算法AT-GRPO,用于训练模型的自适应视觉工具调用能力 [12] - AT-GRPO算法的思路是:只有当工具确实带来性能提升时,模型才会获得正向奖励;当工具无效或有害时,工具调用本身会被惩罚 [12] - 实验结果表明,AT-GRPO使模型能够自主学习一种既有利又具备良好泛化能力的推理策略,在优化模型性能的同时有效降低推理成本 [12] 训练方法与数据构建 - 研究团队采用了两阶段训练框架:模型先通过监督微调建立基本的多模态工具推理能力,再通过AT-GRPO学会自适应工具使用 [16] - 为支撑训练,团队构建了两套大规模数据集 [15] - AdaTooler-V-300k数据集用于强化学习阶段,覆盖单图、多图与视频三种模态,涵盖数学、计数、空间理解、逻辑推理等多类任务 [15] - AdaTooler-V-CoT-100k数据集用于监督微调冷启动,包含大量多轮工具交互的高质量推理轨迹 [15] 性能评估与基准测试 - 研究团队在12个主流的图片和视频基准上对AdaTooler-V进行了测评 [6][17] - 在高分辨率视觉推理任务V*上,AdaTooler-V-7B的准确率达到89.8% [6] - 在图片理解基准测试中,AdaTooler-V-7B在多个指标上领先:V*得分为89.8,MME得分为2460.8,InfoVOA得分为86.0,MMBench得分为87.8,MathVista得分为74.5,MMSI-Bench得分为36.8,SPAR-Bench得分为40.3 [18] - 在视频理解任务中,AdaTooler-V同样展现出显著优势:在VSI-Bench上达到49.5%,在VideoHolmes上达到58.3% [18] - 具体视频基准测试结果:当使用128帧时,AdaTooler-V-7B在VSI-Bench得分为49.5%,VideoMMMU得分为56.8%,MVBench得分为71.5%,Video-MME(无字幕)得分为66.7%,Video-Holmes得分为58.3% [19] - 从训练曲线观察到,随着模型准确率持续提升,其平均推理长度逐渐下降,表明模型学会了合理选择是否进行工具调用,而非盲目频繁使用 [19] 工具有效性量化 - 研究团队引入了一个关键指标——Tool Benefit Score,用于量化视觉工具调用所带来的真实性能增益 [9] - 该指标通过比较同一问题在“使用工具”和“未使用工具”两种条件下的表现差异,判断工具调用是否产生了实质性的正向贡献 [9] - 数据显示,在相当一部分样本中,工具的引入不仅未能提升模型性能,反而导致结果出现明显下降 [9]