openJiuwen
搜索文档
DeepAgent与DeepSearch双双霸榜,答案指向openJiuwen这一新兴开源项目
36氪· 2026-02-12 15:06
行业趋势与市场动态 - 2025年被称为“AI智能体元年”,行业涌现大量智能体,市场对更高级、更通用、更可靠的超级智能体存在全球性的集体渴望 [1] - 衡量智能体实力的核心基准是GAIA(通用智能基准)和BrowseComp-Plus(深度研究基准),它们已成为行业比拼综合解决能力和垂直专项能力的直接赛场 [1] - 当前智能体领域出现清晰分水岭:一边是停留在“语言交互”的智能体,另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [32] 技术突破与产品表现 - 基于开源项目openJiuwen构建的智能体DeepAgent以91.69%的平均得分登顶GAIA榜首,超越英伟达Nemotron等一众海内外领先智能体 [2][3] - DeepAgent的得分(91.69%)已无限接近人类参与者在GAIA测试上的平均成功率(约92%),意味着通用智能体在规划、执行稳定性、工具协同等维度达到接近人类水平的任务执行能力 [10] - 基于openJiuwen构建的智能体DeepSearch以80%的准确率登顶BrowseComp-Plus榜首,在深度搜索与网页交互领域的实用能力实现突破性提升 [20][22] - DeepSearch的80%准确率显著领先于第二名(78.41%)及其他竞争对手,展示了其在多跳深度搜索、跨源信息整合、干扰信息甄别等维度的核心技术优势 [22] 核心技术与架构优势 (DeepAgent) - DeepAgent采用“Agent动态自演进引擎”,同时运行“规划—执行”与“观测—反思”两条闭环,能根据实时反馈动态调整计划,并在感知异常时触发局部回滚与自我修复 [12] - 其“多层级上下文引擎”将会话记录、项目知识、领域规则等分层存储与动态关联,并利用上下文压缩能力在长程任务中保持认知一致性和可信度 [15] - 其“异步工具编排总线”通过统一工具网关与编排机制,将外部API、系统与数据库抽象为标准化能力节点,支持高并发异步调度与执行过程的可控、可查、可回放 [15][16] 核心技术与架构优势 (DeepSearch) - DeepSearch构建了“实体认知引擎”,能自动识别关键实体并建立可追踪的状态演变历史,将问题状态统一建模为可持续更新的结构化上下文 [24] - 其“并行推理路径管理”机制将复杂问题分解为多分支推理路径,并发探索多个可能的解决方案路径,并通过概率采样机制优先执行高价值路径,提升检索效率 [26] - 其“智能行动探索系统”通过异步并发与自适应调度,动态调整搜索动作优先级,平衡探索深度与路径多样性,防止过早收敛到局部最优解 [28] 底层平台与生态影响 - DeepAgent和DeepSearch的核心技术底座是开源平台openJiuwen,该平台聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系 [30] - openJiuwen原生支持多智能体协同和智能体自演进,其智能体控制器结合上下文引擎的异步压缩与动态卸载能力,能高效调度复杂任务 [30] - openJiuwen创新性地将Agent自演进融入架构原生设计,支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化,让智能体能够持续演进 [31] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,其能力也已进入金融、制造等行业的核心生产系统 [31] 行业基准评测标准 - GAIA基准由Meta与Hugging Face联合打造,专门面向通用Agent能力评测,覆盖长程任务规划、多模态理解、工具调用、复杂推理、执行鲁棒性等12类核心能力,设置三个难度等级,Level 3任务难度已接近人类水平 [4][6] - GAIA采用封闭测试集和自动化评分机制,其设计特点包括真实世界难度、人类可解释性和防刷榜策略,能够将大量“看起来很聪明”的智能体挡在门外 [6][8][9] - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [22] - BrowseComp-Plus采用固定人工验证语料库搭建测试环境,以严格准确率为核心评分维度,结果可验证、可复现,最大程度保障评测公平性 [23]
DeepAgent与DeepSearch双双霸榜!答案指向openJiuwen这一新兴开源项目
机器之心· 2026-02-12 13:16
行业趋势与市场背景 - 2025年被称为“AI智能体元年”,行业涌现大量智能体,市场对更高级、更通用、更可靠的超级智能体存在全球性集体渴望 [1] - 衡量智能体实力的两大权威基准是GAIA(通用智能基准)和BrowseComp-Plus(深度研究与网页浏览能力基准),它们已成为行业核心比拼赛场 [1] 核心事件与成就 - 基于新兴开源项目openJiuwen构建的智能体DeepAgent和DeepSearch,双双登顶GAIA和BrowseComp-Plus两大权威榜单榜首 [2] - DeepAgent以91.69%的平均得分登顶GAIA榜首,超越了英伟达Nemotron等一众海内外领先智能体 [4][5] - DeepSearch以80.00%的准确率登顶BrowseComp-Plus榜首,领先第二名(准确率78.41%)1.59个百分点 [26][28] GAIA基准与DeepAgent分析 - GAIA是由Meta与Hugging Face联合打造的通用智能体评测基准,覆盖长程任务规划、多模态理解、工具调用等12类核心能力,设置三个难度等级,Level 3任务难度接近人类水平 [8] - 人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4(即使有插件帮助)的表现仅约15%,凸显了该基准的严苛性 [9] - DeepAgent得分91.69%,已无限接近人类92%的水平,意味着其在规划、执行稳定性、工具协同等维度形成系统级优势,通用智能体任务执行能力接近人类 [13] - DeepAgent的三大核心理念支撑其登顶:1)具备动态自演进引擎,实现从“线性执行”到“闭环自治”;2)拥有多层级上下文引擎,保障认知一致性;3)采用异步工具编排总线,实现异构工具的统一调度与可靠执行 [16][17][19][20][21] BrowseComp-Plus基准与DeepSearch分析 - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [29] - 该基准采用固定人工验证语料库和严格准确率评分,规避了实时网络动态性带来的评测偏差,结果可复现、可审计 [30][31] - DeepSearch登顶意味着其在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势 [31] - DeepSearch通过构建三大核心引擎实现突破:1)实体认知引擎,自动识别关键实体并建立可追踪的状态演变历史;2)并行推理路径管理,将复杂问题分解为多分支推理路径动态探索;3)智能行动探索系统,通过异步并发与自适应调度平衡探索深度与路径多样性 [32][33][35][37][39] 底层技术平台:openJiuwen - DeepAgent和DeepSearch的硬核实力均依托于同一个技术底座——开源平台openJiuwen [42] - openJiuwen是一个面向生产环境打造的平台,聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系 [42] - 平台原生支持多智能体协同和智能体自演进,其智能体控制器结合上下文引擎的异步压缩与动态卸载能力,适配复杂任务的调度需求 [43] - openJiuwen创新性地将Agent自演进融入架构原生设计,支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化,让智能体能够持续演进 [43] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,并逐步进入金融、制造等行业核心生产系统 [43] 行业意义与定位 - 基于openJiuwen构建的智能体在两大权威榜单登顶,标志着智能体领域出现清晰分水岭:一边是停留在“语言交互”的智能体,另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [45][46] - openJiuwen的定位是为生产级智能体提供一个高准确、高可用、高效率的一站式AI Agent平台,开发者可基于此构建复杂、可靠的智能体应用 [46][47]