Workflow
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位·2025-09-18 12:20

模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]