Workflow
强化微调
icon
搜索文档
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 12:11
多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力,包括调用外部工具(如浏览器搜索)和编写/执行代码进行图像操作,实现「图像中的思考」[1] - 开源社区在纯文本智能体(函数调用/工具集成)进展显著,但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型(LVLMs)「工具智能体」能力,支持看图理解、动脑推理、动手操作[2] - 具体功能:编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源,含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调(GRPO算法),设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化:<think>思考→<search>检索→<code>编程→<answer>结论,形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务:Agentic Search(多跳问题检索整合)和Agentic Coding(复杂图像修复/分析)[12] - 推出MAT-Bench评测基准,含150道MAT-Search(人工标注)和200道MAT-Coding(自动化构建)任务[9][12] 性能表现 - 在MAT测试中,Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38(较baseline提升13.84)[13] - MAT-Search平均分提升10.28,部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先,MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试(如HotpotQA、MuSiQue)中,仅用几十条数据训练的模型性能显著提升[14]
刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG
量子位· 2025-05-09 08:16
ChatGPT深度研究功能更新 - ChatGPT推出深度研究功能,可直接连接GitHub,实时分析代码库并生成报告,内容包括项目目的、架构、技术栈等[1] - 用户可通过输入框底部"GitHub"选项搜索指定仓库,例如输入"codex"可连接18个相关repos[2][3] - 功能被网友评价为"真·RAG",目前处于测试阶段,优先面向Team用户开放,后续将扩展至Plus、Pro用户[4][5] GitHub联动技术细节 - 连接后ChatGPT可直接读取代码库内容(代码、README等),自动引用片段生成答案[8] - 支持通过设置菜单手动配置GitHub连接器,可调整访问权限范围[9][10] - 系统自动生成搜索关键词(如"file upload handler backend"),采用多方式检索确保结果相关性[11][12][13] 数据使用政策与新增功能 - 企业级产品默认禁用用户数据训练模型,个人版(免费/Plus/Pro)在开启选项后可能用于模型改进[14] - 同步发布强化微调(RFT)功能,基于思维链推理提升复杂领域表现,已应用于税务会计模型o4-mini[15] - 当前限制:代码库同步需5分钟延迟,仅支持仓库名称搜索,不支持文件名检索[16]