模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源