行业趋势与市场动态 - 2025年被称为“AI智能体元年”,行业涌现大量智能体,市场对更高级、更通用、更可靠的超级智能体存在全球性的集体渴望 [1] - 衡量智能体实力的核心基准是GAIA(通用智能基准)和BrowseComp-Plus(深度研究基准),它们已成为行业比拼综合解决能力和垂直专项能力的直接赛场 [1] - 当前智能体领域出现清晰分水岭:一边是停留在“语言交互”的智能体,另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [32] 技术突破与产品表现 - 基于开源项目openJiuwen构建的智能体DeepAgent以91.69%的平均得分登顶GAIA榜首,超越英伟达Nemotron等一众海内外领先智能体 [2][3] - DeepAgent的得分(91.69%)已无限接近人类参与者在GAIA测试上的平均成功率(约92%),意味着通用智能体在规划、执行稳定性、工具协同等维度达到接近人类水平的任务执行能力 [10] - 基于openJiuwen构建的智能体DeepSearch以80%的准确率登顶BrowseComp-Plus榜首,在深度搜索与网页交互领域的实用能力实现突破性提升 [20][22] - DeepSearch的80%准确率显著领先于第二名(78.41%)及其他竞争对手,展示了其在多跳深度搜索、跨源信息整合、干扰信息甄别等维度的核心技术优势 [22] 核心技术与架构优势 (DeepAgent) - DeepAgent采用“Agent动态自演进引擎”,同时运行“规划—执行”与“观测—反思”两条闭环,能根据实时反馈动态调整计划,并在感知异常时触发局部回滚与自我修复 [12] - 其“多层级上下文引擎”将会话记录、项目知识、领域规则等分层存储与动态关联,并利用上下文压缩能力在长程任务中保持认知一致性和可信度 [15] - 其“异步工具编排总线”通过统一工具网关与编排机制,将外部API、系统与数据库抽象为标准化能力节点,支持高并发异步调度与执行过程的可控、可查、可回放 [15][16] 核心技术与架构优势 (DeepSearch) - DeepSearch构建了“实体认知引擎”,能自动识别关键实体并建立可追踪的状态演变历史,将问题状态统一建模为可持续更新的结构化上下文 [24] - 其“并行推理路径管理”机制将复杂问题分解为多分支推理路径,并发探索多个可能的解决方案路径,并通过概率采样机制优先执行高价值路径,提升检索效率 [26] - 其“智能行动探索系统”通过异步并发与自适应调度,动态调整搜索动作优先级,平衡探索深度与路径多样性,防止过早收敛到局部最优解 [28] 底层平台与生态影响 - DeepAgent和DeepSearch的核心技术底座是开源平台openJiuwen,该平台聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系 [30] - openJiuwen原生支持多智能体协同和智能体自演进,其智能体控制器结合上下文引擎的异步压缩与动态卸载能力,能高效调度复杂任务 [30] - openJiuwen创新性地将Agent自演进融入架构原生设计,支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化,让智能体能够持续演进 [31] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,其能力也已进入金融、制造等行业的核心生产系统 [31] 行业基准评测标准 - GAIA基准由Meta与Hugging Face联合打造,专门面向通用Agent能力评测,覆盖长程任务规划、多模态理解、工具调用、复杂推理、执行鲁棒性等12类核心能力,设置三个难度等级,Level 3任务难度已接近人类水平 [4][6] - GAIA采用封闭测试集和自动化评分机制,其设计特点包括真实世界难度、人类可解释性和防刷榜策略,能够将大量“看起来很聪明”的智能体挡在门外 [6][8][9] - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [22] - BrowseComp-Plus采用固定人工验证语料库搭建测试环境,以严格准确率为核心评分维度,结果可验证、可复现,最大程度保障评测公平性 [23]
DeepAgent与DeepSearch双双霸榜,答案指向openJiuwen这一新兴开源项目
36氪·2026-02-12 15:06