DeepAgent与DeepSearch双双霸榜，答案指向openJiuwen这一新兴开源项目

行业趋势与市场动态 - 2025年被称为“AI智能体元年”，行业涌现大量智能体，市场对更高级、更通用、更可靠的超级智能体存在全球性的集体渴望 [1] - 衡量智能体实力的核心基准是GAIA（通用智能基准）和BrowseComp-Plus（深度研究基准），它们已成为行业比拼综合解决能力和垂直专项能力的直接赛场 [1] - 当前智能体领域出现清晰分水岭：一边是停留在“语言交互”的智能体，另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [32] 技术突破与产品表现 - 基于开源项目openJiuwen构建的智能体DeepAgent以91.69%的平均得分登顶GAIA榜首，超越英伟达Nemotron等一众海内外领先智能体 [2][3] - DeepAgent的得分（91.69%）已无限接近人类参与者在GAIA测试上的平均成功率（约92%），意味着通用智能体在规划、执行稳定性、工具协同等维度达到接近人类水平的任务执行能力 [10] - 基于openJiuwen构建的智能体DeepSearch以80%的准确率登顶BrowseComp-Plus榜首，在深度搜索与网页交互领域的实用能力实现突破性提升 [20][22] - DeepSearch的80%准确率显著领先于第二名（78.41%）及其他竞争对手，展示了其在多跳深度搜索、跨源信息整合、干扰信息甄别等维度的核心技术优势 [22] 核心技术与架构优势 (DeepAgent) - DeepAgent采用“Agent动态自演进引擎”，同时运行“规划—执行”与“观测—反思”两条闭环，能根据实时反馈动态调整计划，并在感知异常时触发局部回滚与自我修复 [12] - 其“多层级上下文引擎”将会话记录、项目知识、领域规则等分层存储与动态关联，并利用上下文压缩能力在长程任务中保持认知一致性和可信度 [15] - 其“异步工具编排总线”通过统一工具网关与编排机制，将外部API、系统与数据库抽象为标准化能力节点，支持高并发异步调度与执行过程的可控、可查、可回放 [15][16] 核心技术与架构优势 (DeepSearch) - DeepSearch构建了“实体认知引擎”，能自动识别关键实体并建立可追踪的状态演变历史，将问题状态统一建模为可持续更新的结构化上下文 [24] - 其“并行推理路径管理”机制将复杂问题分解为多分支推理路径，并发探索多个可能的解决方案路径，并通过概率采样机制优先执行高价值路径，提升检索效率 [26] - 其“智能行动探索系统”通过异步并发与自适应调度，动态调整搜索动作优先级，平衡探索深度与路径多样性，防止过早收敛到局部最优解 [28] 底层平台与生态影响 - DeepAgent和DeepSearch的核心技术底座是开源平台openJiuwen，该平台聚焦智能体的高精准、高可控执行，构建了从开发、调度、执行到优化的全链路能力体系 [30] - openJiuwen原生支持多智能体协同和智能体自演进，其智能体控制器结合上下文引擎的异步压缩与动态卸载能力，能高效调度复杂任务 [30] - openJiuwen创新性地将Agent自演进融入架构原生设计，支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化，让智能体能够持续演进 [31] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地，赋能鸿蒙智能体开发，其能力也已进入金融、制造等行业的核心生产系统 [31] 行业基准评测标准 - GAIA基准由Meta与Hugging Face联合打造，专门面向通用Agent能力评测，覆盖长程任务规划、多模态理解、工具调用、复杂推理、执行鲁棒性等12类核心能力，设置三个难度等级，Level 3任务难度已接近人类水平 [4][6] - GAIA采用封闭测试集和自动化评分机制，其设计特点包括真实世界难度、人类可解释性和防刷榜策略，能够将大量“看起来很聪明”的智能体挡在门外 [6][8][9] - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准，覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [22] - BrowseComp-Plus采用固定人工验证语料库搭建测试环境，以严格准确率为核心评分维度，结果可验证、可复现，最大程度保障评测公平性 [23]