信息检索智能体

搜索文档
通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
机器之心· 2025-06-12 14:08
背景与挑战 - 当前信息爆炸时代需要智能体具备深度信息挖掘和多步推理能力,但面临任务复杂度高、泛化能力弱等挑战[4] - 自主信息检索智能体构建的两大难题:高质量训练数据稀缺(如GAIA仅466样本、WebWalkerQA仅680样本)和开放环境训练复杂性[5][11] - WebDancer需具备看懂网页、多步决策、适应动态环境、自主提问/行动/修正等核心能力[7] 数据创新 - 采用CRAWLQA(模拟人类浏览权威网站)和E2HQA(逐步增强问题复杂度)构建海量高质量问答对[16] - 通过三阶段数据过滤(有效性控制、正确性验证、质量评估)确保数据质量[15][17] - 使用ReAct框架进行思维链蒸馏,内化agentic能力至模型[13][14] 训练策略 - 两阶段训练:监督微调(SFT)实现冷启动,强化学习(RL)优化决策能力[21][22] - 采用DAPO算法动态采样未被充分利用数据对,提升数据效率[23][24] - 通过并行计算等技术降低RL阶段计算成本,每次回滚时间减少25%[25] 性能表现 - GAIA测试:WebDancer在Level 1/2/3任务分别达56.4%、48.1%、25%,平均46.6%,超越GPT-4o基线34.6%[32][33] - WebWalkerQA测试:中等/高难度任务提升显著,平均分达43.2%[30][32] - BrowseComp测试:英文任务达5.0分,中文任务达22.2分,显著优于GPT-4o的1.9分和6.2分[34][35] 未来方向 - 计划集成浏览器建模、Python沙盒等工具扩展能力边界[41] - 从短答案检索向开放域长文本写作任务扩展[42] - 通过6k条长思维链数据即可在GAIA实现高效训练,验证"数据贵精不贵多"[47] 技术定位 - 聚焦从头训练具备agentic能力的开源模型,而非依赖闭源模型提示工程[44] - 采用原生ReAct框架实现自主规划、自我反思和行动执行等涌现能力[45]