通义DeepResearch重磅开源
上海证券报·2025-09-18 13:10
目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社 区下载模型和代码。 模型训练 通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。模型能力基于一种多阶段 数据策略,旨在创建海量高质量的代理训练数据,而无需依赖昂贵的人工标注。 同时,该链路以Qwen3-30B-A3B模型为基座进行优化,为了确保训练的高效性与模型的鲁棒性,团队 创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块,并结合高效异步强化学习算 法及自动化数据策展(Data Curation)流程,显著提升了模型的迭代速度和泛化能力。 在推理阶段,团队设计了ReAct和基于自研的IterResearch的Heavy两种模式,前者用于精准考察模型的 基础内在能力,后者则通过test-time scaling策略,充分挖掘并展现了模型所能达到的性能上限,即使在 长任务中,也能实现高质量的推理。 模型性能 在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、 ...