Workflow
网络搜索智能体
icon
搜索文档
100轮工具调用,8B小模型也能做复杂长搜索,MiniMax&港科大最新开源
36氪· 2025-09-12 20:25
研究背景 - 大语言模型快速发展推动网络搜索智能体能力边界扩展 能够自主从广泛在线资源中检索信息 长视野网络智能体需在多个网站间进行复杂推理和搜索[5] - 现有开源网络智能体处理复杂搜索任务表现有限 商业模型缺乏透明训练细节 超过一半BrowseComp-en基准测试问题人类标注者两小时内无法解决[6] 核心问题 - 优质训练数据稀缺成为制约因素 开发高能力网络搜索智能体关键在于提升训练数据质量而非增加模型参数[1][6] - 常见方法存在局限性 导致不自然查询表达和有限合成灵活性 无法满足复杂推理需求[6] 解决方案 - 研究团队提出两阶段方法WebExplorer 采用探索-演化框架创建多步推理和复杂网络导航的高难度QA对[8] - 第一阶段模型驱动探索 从种子实体开始通过迭代搜索和浏览操作模拟图构建 形成初步QA对[10] - 第二阶段迭代查询演化 通过移除显著信息 引入战略性模糊化和寻找替代描述三个方向提高查询难度[12][13] 数据集构建 - 通过探索-演化过程构建WebExplorer-QA数据集 包含约4万个演化后问答对[13] - 演化过程使强性能商业模型准确率从86.6%下降至67.1% 平均工具调用次数从7.9次增加至9.9次[15] 模型性能 - 基于Qwen3-8B训练WebExplorer-8B模型 支持128K上下文长度和100次工具调用长视野推理[3][16] - 8B参数模型在BrowseComp-en/zh基准上超越WebSailor-72B 在WebWalkerQA和FRAMES数据集取得小于100B参数模型中最佳性能[17] - 在学术前沿基准HLE上取得17.3%成绩 超越之前32B模型 展现良好泛化能力和可转移性[19] 行业意义 - 证明通过精心设计数据合成方法和训练策略 较小模型可在复杂任务上超越更大模型[19] - 参数效率对AI技术在资源受限环境中应用和部署具有重要意义[19] - 为训练高级网络智能体提供实用路径 模型驱动探索方式比传统图谱方法使浏览行为更灵活[3][19]