通义DeepResearch

搜索文档
通义DeepResearch重磅开源
上海证券报· 2025-09-18 13:10
目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社 区下载模型和代码。 模型训练 通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。模型能力基于一种多阶段 数据策略,旨在创建海量高质量的代理训练数据,而无需依赖昂贵的人工标注。 同时,该链路以Qwen3-30B-A3B模型为基座进行优化,为了确保训练的高效性与模型的鲁棒性,团队 创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块,并结合高效异步强化学习算 法及自动化数据策展(Data Curation)流程,显著提升了模型的迭代速度和泛化能力。 在推理阶段,团队设计了ReAct和基于自研的IterResearch的Heavy两种模式,前者用于精准考察模型的 基础内在能力,后者则通过test-time scaling策略,充分挖掘并展现了模型所能达到的性能上限,即使在 长任务中,也能实现高质量的推理。 模型性能 在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、 ...
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
搜狐财经· 2025-09-18 12:54
产品发布与性能表现 - 通义DeepResearch发布全新AI研究代理模型 实现从"能聊天"到"会做研究"的能力跃迁[1] - 在Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、WebWalkerQA及FRAMES等多个基准测试中取得SOTA效果[1] - 30B-A3B轻量级模型性能超越基于基础模型的ReAct Agent和闭源Deep Research Agent[1] 技术架构与创新 - 采用全合成数据策略进行增量预训练和后训练 不依赖昂贵人工标注即可生成高质量训练数据[4] - 开发Agentic CPT增量预训练方法 构建以实体为锚定的开放世界知识记忆系统[5] - 创新动作合成技术 涵盖规划、推理和决策三种动作类型 实现离线环境下大规模探索推理-动作空间[6] - 建立端到端训练范式:Agentic CPT → Agentic SFT → Agentic RL 引领新一代Agent模型训练范式[15][16] 推理模式设计 - 提供原生ReAct模式(思考-行动-观察)支持128K上下文长度 确保通用性和可扩展性[10][11] - 开发深度模式(Heavy Mode)基于IterResearch范式 通过多轮研究保持认知焦点和高质量推理[12] - 创新Research-Synthesis框架 允许多个IterResearch Agent并行探索同一问题并整合结论[13] 强化学习优化 - 基于GRPO进行定制优化 采用on-policy训练范式确保学习信号与模型能力精准匹配[18][19] - 使用token级策略梯度损失函数 采用留一法策略降低优势估计方差[19] - 通过选择性排除负样本解决训练不稳定问题 防止"格式崩溃"现象[19] - 训练过程奖励呈持续上升趋势 策略熵维持高水平确保充分探索[21] 基础设施与数据管理 - 创建仿真训练环境利用离线维基百科数据库和自定义工具套件 显著加快研究和迭代速度[26] - 开发统一工具沙盒通过缓存结果和重试机制确保工具调用稳定性[26] - 实施自动数据管理系统 通过全自动数据合成和数据漏斗动态调整训练集[26] - 基于rLLM实现异步强化学习训练推理框架 支持多智能体实例并行交互[26] 实际应用案例 - 赋能高德出行Agent 为高德App提供地图导航+本地生活场景的复杂查询体验[24] - 通义法睿法律智能体升级司法DeepResearch能力 在法条引用质量分(81.01)、案例引用质量分(64.26)和答案要点质量分(88.28)上领先行业[27][28] - 法律智能体性能超越openai深度研究(75.83/57.56/88.25)和claude深度研究(76.11/40.43/85.30)[28] 开源生态与研究成果 - 实现模型、框架、方案全面开源 包括30B-A3B模型在Hugging Face和Model Scope平台发布[1][8] - 过去六个月每月发布一篇技术报告 迄今已发布五篇 本次同时发布六篇新报告[30] - 研究覆盖WebWalker、WebDancer、WebSailor、WebShaper、WebWatcher等多个方向[30]
通义首个深度研究Agent模型DeepResearch正式开源
每日经济新闻· 2025-09-18 12:27
(文章来源:每日经济新闻) 每经AI快讯,据阿里云公众号消息,近日,通义首个深度研究Agent模型DeepResearch正式开源。该模 型参数仅30B(激活3B),在多个权威评测集上取得SOTA成绩。目前,通义DeepResearch的模型、框 架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社区下载模型和代码。 ...
开源Agent模型榜第一名,现在是阿里通义DeepResearch
量子位· 2025-09-18 12:20
模型性能与开源情况 - 阿里开源旗下首个深度研究Agent模型通义DeepResearch 该30B-A3B轻量级模型在HLE BrowseComp-zh GAIA等多个权威评测集上取得SOTA成绩 超越OpenAI Deep Research和DeepSeek-V3.1等Agent模型 [1] - 模型 框架和方案均已全面开源 可通过Github Hugging Face和魔搭社区下载 [3] 数据策略 - 采用基于全合成数据的增量预训练和后训练策略 核心目标是不依赖昂贵人工标注即可大规模生成高质量训练数据 [4][5] - 通过Agentic CPT增量预训练为模型奠定Agent基础 开发系统化可扩展数据合成方案 形成数据生成正向循环 [6][7] - 基于知识文档 爬虫数据 知识图谱和训练轨迹等构建以实体为锚定的开放世界知识记忆 并构造多风格问题答案对覆盖真实场景 [8] - 基于多风格问题和历史轨迹构建规划 推理和决策三类动作数据 在离线环境下大规模探索推理-动作空间 消除对商业工具API调用的需求 [9] - 开发全自动合成数据生成方案 通过WebWalker WebSailor和WebShaper迭代保证数据质量和可扩展性 [11][12] 数据生成技术 - 通过知识图谱随机游走和表格数据融合从真实网站提取信息 通过策略性模糊隐藏问题信息增加难度 [14] - 将问答难度建模为可控原子操作 系统化提升问题复杂度 基于集合论形式化建模信息搜索问题 解决合成数据验证难题 [14] - 开发自动化数据引擎生成需要多学科知识和多源推理的博士级研究问题 通过工具配备和循环深化实现任务难度可控升级 [14] 推理模式 - 支持原生ReAct Mode和Heavy Mode ReAct Mode采用思考-行动-观察范式 128K上下文长度支持大量交互轮次 [15][16] - Heavy Mode基于IterResearch范式处理极端复杂多步研究任务 将任务解构为研究轮次 每轮使用上一轮关键输出重建精简工作空间 [17][18] - 迭代过程中整合关键发现形成核心报告并决策下一步行动 通过综合与重构保持认知焦点和高质量推理能力 [19][20] - 提出Research-Synthesis框架 多个IterResearch Agent并行探索同一问题后整合报告和结论以获得更准确答案 [21] 训练范式 - 革新Agent model训练流程 从Agentic CPT到RFT再到Agentic RL 打通全链路并引领新时代Agent model训练范式 [23][25] - 建立Agentic CPT→Agentic SFT→Agentic RL的端到端训练范式 重点通过强化学习完成最终优化 [27] 强化学习实践 - 基于GRPO进行定制优化 严格遵循on-policy训练范式确保学习信号与模型能力匹配 采用token级策略梯度损失函数优化目标 [30] - 使用留一法策略降低优势估计方差 选择性排除负样本避免训练不稳定和格式崩溃现象 [31] - 通过增大批次和组规模维持较小方差并提供充足监督信号 训练过程奖励呈持续上升趋势 策略熵维持高水平促进探索 [32][34] - Web环境非平稳性促进稳健自适应策略形成 无需显式熵正则化 [35] 数据质量与训练环境 - 数据质量和训练环境稳定性是Agentic RL成功的关键因素 合成数据提供一致性更高分布 使模型有效学习和拟合 [36][37] - BrowseComp人工标注数据噪声多且规模有限 模型难以提炼潜在分布 影响学习和泛化能力 [38][39] - 使用离线维基百科数据库和自定义工具套件创建模拟训练环境 通过SailorFog-QA-V2流程生成专属高质量数据 [44] - 开发统一工具沙盒确保训练评估期间工具稳定调用 通过缓存结果 重试失败调用和饱和式响应处理并发和故障 [44] - 实时优化数据并动态调整训练集 通过数据生成和模型训练的正向循环确保训练稳定性和性能提升 [44] - 基于rLLM实现异步强化学习训练推理框架 多个智能体实例并行与环境交互并独立生成轨迹 [44] 内部应用落地 - 赋能阿里巴巴内部应用包括高德出行Agent 高德地图导航+本地生活业务场景和丰富专用工具具备构建Agent土壤 [42] - 通义团队与高德团队共建合作 通义提供模型 高德提供工具和Agent链路 打造高德App助手小德的复杂查询体验 [43] - 通义法睿作为大模型原生法律智能体 升级司法DeepResearch能力 高效执行多步查询与复杂推理 [46] - 实现权威类案精准检索 法条智能匹配和专业观点深度融合 在法律问答的答案要点质量 案例引用质量和法条引用质量上领先行业 [46]
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
机器之心· 2025-09-18 09:01
模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]
氪星晚报|通义DeepResearch模型、框架、方案全开源;奇瑞汽车香港IPO据悉已获足额认购;诺和诺德:拟于明年年初在美国“全面”推出口服版司美格鲁肽
36氪· 2025-09-17 20:33
大公司: 汉仪股份:控股股东及一致人拟减持不超过3% 36氪获悉,汉仪股份公告,公司控股股东谢立群及其一致行动人泰州汉仪天下投资中心、泰州汉之源企 业管理咨询合伙企业计划自公告披露之日起15个交易日后的3个月内,以集中竞价或大宗交易方式合计 减持公司股份不超过2,940,000股,占剔除回购专用账户后公司总股本的3.00%。减持原因为股东自身资 金 元宇宙平台Meta寄望AI智能眼镜拉动新增长 通义DeepResearch模型、框架、方案全开源 36氪获悉,据"通义大模型"公众号消息,为了让AI真正具备"做研究"的能力,我们针对通义 DeepResearch 的数据、Agent范式、训练、基础设施(Infra)、Test Time Scaling 进行了系统性创新。所 有技术方案均已开源,欢迎开发者共建。 诺和诺德:拟于明年年初在美国"全面"推出口服版司美格鲁肽 诺和诺德产品主管表示,公司旗下减肥药司美格鲁肽(Wegovy)相比竞争对手礼来的肥胖症药物具有 显著优势,并准备于明年年初在美国"全面"推出口服版司美格鲁肽。(智通财经) 华为发布 "4+10+N"中小企业智能化方案 36氪获悉,在华为坤灵秋季新品发 ...
阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
新浪科技· 2025-09-17 11:33
新浪科技讯 9月17日上午消息,阿里开源旗下首个深度研究Agent模型——通义DeepResearch。该模型在 HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩(State-of-the-art),超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。目前,通义DeepResearch的模型、框架和方案均已全面开 源,用户可在Github、Hugging Face和魔搭社区社区下载模型和代码。 | Tongyl DeepResearch Benchmarks | | | | | Q DeepResearch It ! | | | | --- | --- | --- | --- | --- | --- | --- | --- | | Benchmarks Humanity's Last Exam BrowseComp-ZH BrowseComp | | | | GALA | xbench-DeepSearch | WebWalkerQA | FRAMES | | LIM-based ReAct Agent | | | | | | | | | G ...