Workflow
多模态智能体能力
icon
搜索文档
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 12:11
多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力,包括调用外部工具(如浏览器搜索)和编写/执行代码进行图像操作,实现「图像中的思考」[1] - 开源社区在纯文本智能体(函数调用/工具集成)进展显著,但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型(LVLMs)「工具智能体」能力,支持看图理解、动脑推理、动手操作[2] - 具体功能:编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源,含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调(GRPO算法),设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化:<think>思考→<search>检索→<code>编程→<answer>结论,形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务:Agentic Search(多跳问题检索整合)和Agentic Coding(复杂图像修复/分析)[12] - 推出MAT-Bench评测基准,含150道MAT-Search(人工标注)和200道MAT-Coding(自动化构建)任务[9][12] 性能表现 - 在MAT测试中,Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38(较baseline提升13.84)[13] - MAT-Search平均分提升10.28,部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先,MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试(如HotpotQA、MuSiQue)中,仅用几十条数据训练的模型性能显著提升[14]