DeepAgent与DeepSearch双双霸榜！答案指向openJiuwen这一新兴开源项目

行业趋势与市场背景 - 2025年被称为“AI智能体元年”，行业涌现大量智能体，市场对更高级、更通用、更可靠的超级智能体存在全球性集体渴望 [1] - 衡量智能体实力的两大权威基准是GAIA（通用智能基准）和BrowseComp-Plus（深度研究与网页浏览能力基准），它们已成为行业核心比拼赛场 [1] 核心事件与成就 - 基于新兴开源项目openJiuwen构建的智能体DeepAgent和DeepSearch，双双登顶GAIA和BrowseComp-Plus两大权威榜单榜首 [2] - DeepAgent以91.69%的平均得分登顶GAIA榜首，超越了英伟达Nemotron等一众海内外领先智能体 [4][5] - DeepSearch以80.00%的准确率登顶BrowseComp-Plus榜首，领先第二名（准确率78.41%）1.59个百分点 [26][28] GAIA基准与DeepAgent分析 - GAIA是由Meta与Hugging Face联合打造的通用智能体评测基准，覆盖长程任务规划、多模态理解、工具调用等12类核心能力，设置三个难度等级，Level 3任务难度接近人类水平 [8] - 人类参与者在GAIA测试上的平均成功率约为92%，而GPT-4（即使有插件帮助）的表现仅约15%，凸显了该基准的严苛性 [9] - DeepAgent得分91.69%，已无限接近人类92%的水平，意味着其在规划、执行稳定性、工具协同等维度形成系统级优势，通用智能体任务执行能力接近人类 [13] - DeepAgent的三大核心理念支撑其登顶：1）具备动态自演进引擎，实现从“线性执行”到“闭环自治”；2）拥有多层级上下文引擎，保障认知一致性；3）采用异步工具编排总线，实现异构工具的统一调度与可靠执行 [16][17][19][20][21] BrowseComp-Plus基准与DeepSearch分析 - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准，覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [29] - 该基准采用固定人工验证语料库和严格准确率评分，规避了实时网络动态性带来的评测偏差，结果可复现、可审计 [30][31] - DeepSearch登顶意味着其在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势 [31] - DeepSearch通过构建三大核心引擎实现突破：1）实体认知引擎，自动识别关键实体并建立可追踪的状态演变历史；2）并行推理路径管理，将复杂问题分解为多分支推理路径动态探索；3）智能行动探索系统，通过异步并发与自适应调度平衡探索深度与路径多样性 [32][33][35][37][39] 底层技术平台：openJiuwen - DeepAgent和DeepSearch的硬核实力均依托于同一个技术底座——开源平台openJiuwen [42] - openJiuwen是一个面向生产环境打造的平台，聚焦智能体的高精准、高可控执行，构建了从开发、调度、执行到优化的全链路能力体系 [42] - 平台原生支持多智能体协同和智能体自演进，其智能体控制器结合上下文引擎的异步压缩与动态卸载能力，适配复杂任务的调度需求 [43] - openJiuwen创新性地将Agent自演进融入架构原生设计，支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化，让智能体能够持续演进 [43] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地，赋能鸿蒙智能体开发，并逐步进入金融、制造等行业核心生产系统 [43] 行业意义与定位 - 基于openJiuwen构建的智能体在两大权威榜单登顶，标志着智能体领域出现清晰分水岭：一边是停留在“语言交互”的智能体，另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [45][46] - openJiuwen的定位是为生产级智能体提供一个高准确、高可用、高效率的一站式AI Agent平台，开发者可基于此构建复杂、可靠的智能体应用 [46][47]