复杂信息检索挑战 - 简单问题如城市人口查询可通过搜索引擎直接解决 但复杂问题如涉及多线索交叉验证的乐曲溯源则超出普通开源模型能力范围 [1][2] - BrowseComp基准将答案线索拆解为零碎信息并散布在不同时期和类型的信息源中 形成"信息迷雾网" 需要多步推理和交叉验证才能串联线索 [6] - 闭源系统如OpenAI的DeepResearch已实现超越人类的表现 但因其黑盒特性导致开源社区难以借鉴经验 [10] WebSailor技术方案 - 通过SailorFog-QA数据集模拟高不确定性环境 采用随机游走建图策略构建非线性知识网络 并对问题内容进行模糊化处理提升训练难度 [14][15][16] - 创新性使用开源模型生成Action-Observation轨迹后重构Thought过程 形成简洁有效的RFT冷启动数据集 [19][20] - 开发DUPO强化学习算法 通过双阶段动态采样策略将训练效率提升2-3倍 重点针对困难样本进行重复训练 [22][23][24] 性能表现 - WebSailor-72B在BrowseComp-en/zh基准分别达到12%和30.1%准确率 全面刷新开源模型纪录 [26] - 在Xbench-DeepSearch和GAIA基准分别取得55%和55.4%的分数 显著超越DeepSeek R1和GPT-4o等模型 [26] - 简单任务测试中WebSailor仍保持优势 在SimpleQA子集上表现优于所有对比方法 显示技术方案的兼容性 [28] 行业影响 - 首次验证开源模型可挑战BrowseComp这类超越人类能力边界的复杂任务 缩小与闭源方案的差距 [5][29] - 提供"高难度数据合成+冷启动+高效RL"的通用workflow 为开源社区攻克复杂推理任务提供方法论 [30] - 开源部分SailorFog-QA数据和模型checkpoint 降低研究者进入门槛 推动行业技术民主化 [30][31]
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3