核心观点 - 通义实验室推出自主信息检索智能体WebDancer,具备多步推理与连续动作执行能力,解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法(CRAWLQA、E2HQA)和两阶段训练策略(监督微调+强化学习),显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型,最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺(现有数据集如2WIKI仅支持浅层问题)、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - CRAWLQA:模拟人类浏览行为爬取权威网站(arXiv、Wikipedia),生成多样化真实问答对[6] - E2HQA:采用"由简到难"策略构建多步推理问答,通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容,确保逻辑性与多样性[9][10] 训练方法 - 监督微调(SFT):屏蔽Observation干扰,专注Thought-Action损失计算,提升鲁棒性[12] - 强化学习(RL):采用DAPO算法动态采样低利用率数据,优化奖励函数设计,降低训练成本[13][15] 实验结果 - GAIA数据集:WebDancer+QwQ-32B组合达到56.4% Level 1准确率,显著高于Qwen-2.5-32B(20.5%)[20] - WebWalkerQA数据集:中等难度任务中WebDancer表现最优(55.0% vs 基线35.0%)[20] - BrowseComp数据集:中文任务得分22.2,远超GPT-4o(6.2)[21][22] 未来方向 - 扩展工具集成(浏览器建模、Python沙盒)以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸,提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位·2025-06-06 12:01