通义法睿

搜索文档
通义DeepResearch重磅开源
上海证券报· 2025-09-18 13:10
目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社 区下载模型和代码。 模型训练 通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。模型能力基于一种多阶段 数据策略,旨在创建海量高质量的代理训练数据,而无需依赖昂贵的人工标注。 同时,该链路以Qwen3-30B-A3B模型为基座进行优化,为了确保训练的高效性与模型的鲁棒性,团队 创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块,并结合高效异步强化学习算 法及自动化数据策展(Data Curation)流程,显著提升了模型的迭代速度和泛化能力。 在推理阶段,团队设计了ReAct和基于自研的IterResearch的Heavy两种模式,前者用于精准考察模型的 基础内在能力,后者则通过test-time scaling策略,充分挖掘并展现了模型所能达到的性能上限,即使在 长任务中,也能实现高质量的推理。 模型性能 在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、 ...
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位· 2025-09-18 12:20
模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
机器之心· 2025-09-18 09:01
模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]