Workflow
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
搜狐财经·2025-09-18 12:54

产品发布与性能表现 - 通义DeepResearch发布全新AI研究代理模型 实现从"能聊天"到"会做研究"的能力跃迁[1] - 在Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch、WebWalkerQA及FRAMES等多个基准测试中取得SOTA效果[1] - 30B-A3B轻量级模型性能超越基于基础模型的ReAct Agent和闭源Deep Research Agent[1] 技术架构与创新 - 采用全合成数据策略进行增量预训练和后训练 不依赖昂贵人工标注即可生成高质量训练数据[4] - 开发Agentic CPT增量预训练方法 构建以实体为锚定的开放世界知识记忆系统[5] - 创新动作合成技术 涵盖规划、推理和决策三种动作类型 实现离线环境下大规模探索推理-动作空间[6] - 建立端到端训练范式:Agentic CPT → Agentic SFT → Agentic RL 引领新一代Agent模型训练范式[15][16] 推理模式设计 - 提供原生ReAct模式(思考-行动-观察)支持128K上下文长度 确保通用性和可扩展性[10][11] - 开发深度模式(Heavy Mode)基于IterResearch范式 通过多轮研究保持认知焦点和高质量推理[12] - 创新Research-Synthesis框架 允许多个IterResearch Agent并行探索同一问题并整合结论[13] 强化学习优化 - 基于GRPO进行定制优化 采用on-policy训练范式确保学习信号与模型能力精准匹配[18][19] - 使用token级策略梯度损失函数 采用留一法策略降低优势估计方差[19] - 通过选择性排除负样本解决训练不稳定问题 防止"格式崩溃"现象[19] - 训练过程奖励呈持续上升趋势 策略熵维持高水平确保充分探索[21] 基础设施与数据管理 - 创建仿真训练环境利用离线维基百科数据库和自定义工具套件 显著加快研究和迭代速度[26] - 开发统一工具沙盒通过缓存结果和重试机制确保工具调用稳定性[26] - 实施自动数据管理系统 通过全自动数据合成和数据漏斗动态调整训练集[26] - 基于rLLM实现异步强化学习训练推理框架 支持多智能体实例并行交互[26] 实际应用案例 - 赋能高德出行Agent 为高德App提供地图导航+本地生活场景的复杂查询体验[24] - 通义法睿法律智能体升级司法DeepResearch能力 在法条引用质量分(81.01)、案例引用质量分(64.26)和答案要点质量分(88.28)上领先行业[27][28] - 法律智能体性能超越openai深度研究(75.83/57.56/88.25)和claude深度研究(76.11/40.43/85.30)[28] 开源生态与研究成果 - 实现模型、框架、方案全面开源 包括30B-A3B模型在Hugging Face和Model Scope平台发布[1][8] - 过去六个月每月发布一篇技术报告 迄今已发布五篇 本次同时发布六篇新报告[30] - 研究覆盖WebWalker、WebDancer、WebSailor、WebShaper、WebWatcher等多个方向[30]