阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

核心观点 - 通义实验室推出自主信息检索智能体WebDancer，具备多步推理与连续动作执行能力，解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法（CRAWLQA、E2HQA）和两阶段训练策略（监督微调+强化学习），显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型，最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求，尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺（现有数据集如2WIKI仅支持浅层问题）、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - CRAWLQA：模拟人类浏览行为爬取权威网站（arXiv、Wikipedia），生成多样化真实问答对[6] - E2HQA：采用"由简到难"策略构建多步推理问答，通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容，确保逻辑性与多样性[9][10] 训练方法 - 监督微调（SFT）：屏蔽Observation干扰，专注Thought-Action损失计算，提升鲁棒性[12] - 强化学习（RL）：采用DAPO算法动态采样低利用率数据，优化奖励函数设计，降低训练成本[13][15] 实验结果 - GAIA数据集：WebDancer+QwQ-32B组合达到56.4% Level 1准确率，显著高于Qwen-2.5-32B（20.5%）[20] - WebWalkerQA数据集：中等难度任务中WebDancer表现最优（55.0% vs 基线35.0%）[20] - BrowseComp数据集：中文任务得分22.2，远超GPT-4o（6.2）[21][22] 未来方向 - 扩展工具集成（浏览器建模、Python沙盒）以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸，提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]