WebDancer - 财报，业绩电话会，研报，新闻

WebDancer

搜索文档

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

量子位· 2025-06-27 12:40

阿里WebDancer技术发布 - 公司发布端到端自主信息搜索智能体WebDancer，具备多步推理、工具使用和泛化能力，可模拟人类上网行为执行网页遍历、信息搜索等复杂任务[1][3][9] - 该智能体在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数，平均准确率达46.6%和43.2%，优于基线模型和部分开源框架[4][33] - 技术框架已开源，包含训练范式、模型代码及实现方法，支持其他智能代理获取自主搜索能力[5][11] 四阶段训练范式 - **浏览数据构建**：通过CRAWLQA收集知识网站主URL并模拟点击子链接，结合GPT-4o生成复杂QA对；E2HQA通过实体检索-信息扩展-问题重构实现难度递进[12][14][15][16][17] - **轨迹采样**：采用ReAct框架生成思维-动作-观察轨迹，通过双路径采样（短/长思维链）和漏斗式过滤保留非冗余、目标一致且逻辑准确的轨迹[20][21][22] - **监督微调**：将轨迹转换为标记化输入，计算思维/动作部分损失，保留模型原有推理能力的同时教会任务分解与工具调用[23][25][26] - **强化学习**：采用DAPO算法优化策略，结合格式奖励（权重0.1）和答案奖励（权重0.9）的混合机制提升决策泛化能力[28][29][31][32] 性能验证与对比 - 在BrowseComp英文/中文数据集上分别取得2.8/5.0和13.5/22.2分数，显著优于GPT-4o（英文0.6）和QwQ-32B（中文11.1）等对比模型[35][36] - 闭源框架OpenAI DR在GAIA测试中达74.3分最高，但WebDancer作为开源方案在同类中表现突出，尤其QwQ-32B基础版本达53.8分[33][34] - RL训练后Pass@1性能与SFT基线的Pass@3相当，证明强化学习能更有效采样正确响应，但对语言推理模型的提升主要体现在一致性而非通过率[38]

机器之心· 2025-06-12 14:08

背景与挑战 - 当前信息爆炸时代需要智能体具备深度信息挖掘和多步推理能力，但面临任务复杂度高、泛化能力弱等挑战[4] - 自主信息检索智能体构建的两大难题：高质量训练数据稀缺（如GAIA仅466样本、WebWalkerQA仅680样本）和开放环境训练复杂性[5][11] - WebDancer需具备看懂网页、多步决策、适应动态环境、自主提问/行动/修正等核心能力[7] 数据创新 - 采用CRAWLQA（模拟人类浏览权威网站）和E2HQA（逐步增强问题复杂度）构建海量高质量问答对[16] - 通过三阶段数据过滤（有效性控制、正确性验证、质量评估）确保数据质量[15][17] - 使用ReAct框架进行思维链蒸馏，内化agentic能力至模型[13][14] 训练策略 - 两阶段训练：监督微调（SFT）实现冷启动，强化学习（RL）优化决策能力[21][22] - 采用DAPO算法动态采样未被充分利用数据对，提升数据效率[23][24] - 通过并行计算等技术降低RL阶段计算成本，每次回滚时间减少25%[25] 性能表现 - GAIA测试：WebDancer在Level 1/2/3任务分别达56.4%、48.1%、25%，平均46.6%，超越GPT-4o基线34.6%[32][33] - WebWalkerQA测试：中等/高难度任务提升显著，平均分达43.2%[30][32] - BrowseComp测试：英文任务达5.0分，中文任务达22.2分，显著优于GPT-4o的1.9分和6.2分[34][35] 未来方向 - 计划集成浏览器建模、Python沙盒等工具扩展能力边界[41] - 从短答案检索向开放域长文本写作任务扩展[42] - 通过6k条长思维链数据即可在GAIA实现高效训练，验证"数据贵精不贵多"[47] 技术定位 - 聚焦从头训练具备agentic能力的开源模型，而非依赖闭源模型提示工程[44] - 采用原生ReAct框架实现自主规划、自我反思和行动执行等涌现能力[45]

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

量子位· 2025-06-06 12:01

核心观点 - 通义实验室推出自主信息检索智能体WebDancer，具备多步推理与连续动作执行能力，解决复杂信息检索需求[1][2] - WebDancer通过创新的数据合成方法（CRAWLQA、E2HQA）和两阶段训练策略（监督微调+强化学习），显著提升智能体在开放网络环境中的适应性与泛化能力[5][6][12][13] - 实验结果显示WebDancer在GAIA、WebWalkerQA等基准测试中性能超越主流基线模型，最高达到61.1% Pass@3分数[17][18][19][20] 背景与挑战 - 传统搜索引擎难以满足深层次、多步骤信息获取需求，尤其在医学研究、商业决策等领域[3] - 构建智能体面临训练数据稀缺（现有数据集如2WIKI仅支持浅层问题）、复杂网页解析、多步决策等挑战[4][5] 数据构建创新 - **CRAWLQA**：模拟人类浏览行为爬取权威网站（arXiv、Wikipedia），生成多样化真实问答对[6] - **E2HQA**：采用"由简到难"策略构建多步推理问答，通过问题改写保持答案合法性[6] - 数据过滤采用规则剔除重复/冗余内容，确保逻辑性与多样性[9][10] 训练方法 - **监督微调（SFT）**：屏蔽Observation干扰，专注Thought-Action损失计算，提升鲁棒性[12] - **强化学习（RL）**：采用DAPO算法动态采样低利用率数据，优化奖励函数设计，降低训练成本[13][15] 实验结果 - **GAIA数据集**：WebDancer+QwQ-32B组合达到56.4% Level 1准确率，显著高于Qwen-2.5-32B（20.5%）[20] - **WebWalkerQA数据集**：中等难度任务中WebDancer表现最优（55.0% vs 基线35.0%）[20] - **BrowseComp数据集**：中文任务得分22.2，远超GPT-4o（6.2）[21][22] 未来方向 - 扩展工具集成（浏览器建模、Python沙盒）以支持更复杂任务[29] - 从短答案检索向开放域长文本写作任务延伸，提升生成能力[30] - 通过原生ReAct框架推动开源Agentic模型生态建设[30][31]