Workflow
开源智能体
icon
搜索文档
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 15:50
背景与问题 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,触及人类认知极限[2] - 开源Web Agent在极端复杂任务上表现不佳,BrowseComp-en基准准确率几乎为零[2] - 闭源系统如DeepResearch已实现"超人类"水平,开源模型存在显著差距[2] - 复杂任务需要多步推理和整合分散线索,如HBO剧集音乐创作者溯源案例[3] 技术创新 数据构造 - 构建SailorFog-QA数据集,包含Level-3高不确定性任务(非线性知识网络、模糊化信息)[8][12] - 通过维基数据选取模糊实体,随机扩展生成复杂知识图谱[12] - 信息模糊化处理(时间、地点、定量数据)提升任务难度[12] - 数据复杂度验证:工具调用呈长尾分布,20%样本需超5次交互[24] 训练方法 - 推理轨迹重构:保留LRM的Action-Observation序列,反向生成简洁推理过程[16] - 两阶段训练:RFT冷启动(数千条高质量轨迹)+ DUPO强化学习[17] - DUPO算法效率提升:训练速度比DAPO快2-3倍,采用动态样本复制策略[18] - 复合奖励机制:同时评估格式规范性与答案准确性[17] 性能表现 - WebSailor-72B在BrowseComp-en准确率达12%,超越所有开源模型[20] - WebSailor-7B以6.7%准确率超过32B规模竞品,验证训练范式优势[21] - 四大基准全面领先:BrowseComp-zh(30.1%)、Xbench-DeepSearch(55%)、GAIA(55.4%)[20] - 简单任务兼容性:在SimpleQA子集上超越直接推理和其他Agent方法[22] 行业意义 - 证明性能提升关键在训练范式革新,非单纯模型规模[27] - 提供通用蓝图:高难度任务合成→精炼逻辑监督→高效强化学习[27] - 推动AI从模仿人类转向构建极限挑战任务[27] - 未来方向:异步强化学习、多模态整合、跨领域综合任务[28]