深度搜索
搜索文档
DeepAgent与DeepSearch双双霸榜!答案指向openJiuwen这一新兴开源项目
机器之心· 2026-02-12 13:16
行业趋势与市场背景 - 2025年被称为“AI智能体元年”,行业涌现大量智能体,市场对更高级、更通用、更可靠的超级智能体存在全球性集体渴望 [1] - 衡量智能体实力的两大权威基准是GAIA(通用智能基准)和BrowseComp-Plus(深度研究与网页浏览能力基准),它们已成为行业核心比拼赛场 [1] 核心事件与成就 - 基于新兴开源项目openJiuwen构建的智能体DeepAgent和DeepSearch,双双登顶GAIA和BrowseComp-Plus两大权威榜单榜首 [2] - DeepAgent以91.69%的平均得分登顶GAIA榜首,超越了英伟达Nemotron等一众海内外领先智能体 [4][5] - DeepSearch以80.00%的准确率登顶BrowseComp-Plus榜首,领先第二名(准确率78.41%)1.59个百分点 [26][28] GAIA基准与DeepAgent分析 - GAIA是由Meta与Hugging Face联合打造的通用智能体评测基准,覆盖长程任务规划、多模态理解、工具调用等12类核心能力,设置三个难度等级,Level 3任务难度接近人类水平 [8] - 人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4(即使有插件帮助)的表现仅约15%,凸显了该基准的严苛性 [9] - DeepAgent得分91.69%,已无限接近人类92%的水平,意味着其在规划、执行稳定性、工具协同等维度形成系统级优势,通用智能体任务执行能力接近人类 [13] - DeepAgent的三大核心理念支撑其登顶:1)具备动态自演进引擎,实现从“线性执行”到“闭环自治”;2)拥有多层级上下文引擎,保障认知一致性;3)采用异步工具编排总线,实现异构工具的统一调度与可靠执行 [16][17][19][20][21] BrowseComp-Plus基准与DeepSearch分析 - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [29] - 该基准采用固定人工验证语料库和严格准确率评分,规避了实时网络动态性带来的评测偏差,结果可复现、可审计 [30][31] - DeepSearch登顶意味着其在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势 [31] - DeepSearch通过构建三大核心引擎实现突破:1)实体认知引擎,自动识别关键实体并建立可追踪的状态演变历史;2)并行推理路径管理,将复杂问题分解为多分支推理路径动态探索;3)智能行动探索系统,通过异步并发与自适应调度平衡探索深度与路径多样性 [32][33][35][37][39] 底层技术平台:openJiuwen - DeepAgent和DeepSearch的硬核实力均依托于同一个技术底座——开源平台openJiuwen [42] - openJiuwen是一个面向生产环境打造的平台,聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系 [42] - 平台原生支持多智能体协同和智能体自演进,其智能体控制器结合上下文引擎的异步压缩与动态卸载能力,适配复杂任务的调度需求 [43] - openJiuwen创新性地将Agent自演进融入架构原生设计,支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化,让智能体能够持续演进 [43] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,并逐步进入金融、制造等行业核心生产系统 [43] 行业意义与定位 - 基于openJiuwen构建的智能体在两大权威榜单登顶,标志着智能体领域出现清晰分水岭:一边是停留在“语言交互”的智能体,另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [45][46] - openJiuwen的定位是为生产级智能体提供一个高准确、高可用、高效率的一站式AI Agent平台,开发者可基于此构建复杂、可靠的智能体应用 [46][47]
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
机器之心· 2025-12-05 18:17
评测结果与行业动态 - 第三方评测机构SuperCLUE发布的11月DeepSearch评测报告显示,国产大模型openPangu-R-72B在模型榜单中名列第一,体现了国产昇腾算力的大模型研发实力 [1] - 在SuperCLUE-DeepSearch中文深度搜索测评模型总榜中,openPangu-R-72B以73.33的总分位列第一,领先于Google的Gemini-3-Pro-Preview(70.48分)和OpenAI的GPT-5.1(high)(70.48分)[2] - 该模型在人文社科、工程技术和自然科学三个子任务类别中得分分别为75.47、54.55和83.33 [2] 模型架构与技术底座 - openPangu-R-72B是基于昇腾集群训练的MoE(混合专家)模型,采用80选8的专家选择机制,在740亿总参数量的基础上,将激活参数量控制在150亿,以平衡效率与性能 [4] - 模型使用了24万亿tokens的训练数据,并具备128k长序列处理能力,为处理深度搜索任务中的长文本信息奠定了基础 [4] - 在注意力机制层面引入了参数式Sink Token技术,有效缓解极大激活值问题,提升了训练稳定性并对后续量化更亲和 [7] - 采用K-Norm与Depth-Scaled Sandwich-Norm组合的架构,其中K-Norm仅对attention的key施加RMS Norm,在达到与QK-Norm相当稳定性的同时降低了计算开销 [7] - 通过增加Query头数和注意力头维度来捕获细粒度语义关系,并引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码 [7] - 通过将KV组数量减半,在Key头维度增加的情况下,实现了37.5%的KV cache缩减,平衡了推理阶段的显存占用、速度与模型效果 [7] - 采用Adaptive Aux Free负载优化技术的升级版本,通过自适应调整各个专家负载bias的更新幅度,有效减少均衡震荡,让专家负载分布更均衡 [8] 深度搜索能力专项优化 - 模型通过后训练阶段的长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了DeepSearch能力 [10] - 在长链QA难题合成方面,通过query条件模糊化将问题平均难度提升10%,并引入verification agent以提升用于训练问答对的准确性 [12] - 针对非索引知识问答场景,训练中注入了“Planner聚焦关键URL + URL_crawler爬取网页 + Document_QA识别下一步浏览链接”的循环工作流,通过同一站点内的多跳浏览实现深度信息搜集 [12] - 采用步骤级快慢融合策略,在DeepSearch的ReACT执行过程中,为Document_QA步骤启用慢思考以保障精度,为其他工具调用步骤采用快思考以提升速度,实现精度与效率的平衡 [13] 国产算力与模型生态 - openPangu-R-72B是基于国产昇腾算力平台训练的代表模型,证明了该平台在支撑大参数量、高复杂度模型研发方面的坚实能力 [15] - openPangu系列的兄弟模型openPangu-718B在同期SuperCLUE通用榜单中斩获第二名,展现了该系列在不同任务场景下的全面实力 [15] - 随着大模型在企业服务、学术研究、政务处理等领域的深度落地,深度搜索能力被视为模型实用化的核心竞争力 [15]
高搜商的AI,都快学会抢答了
搜狐财经· 2025-05-12 14:04
AI大模型性能对比 - 主流AI大模型在母亲节送礼建议测试中表现分化 形成"广告派"(Kimi)、"敷衍派"(豆包)、"细心派"(讯飞星火/腾讯元宝)三大阵营 [5][6][9][18] - "广告派"Kimi推荐内容与用户需求脱节 存在重复推荐已购品类及植入具体商品嫌疑 [5][6] - "敷衍派"豆包建议过于笼统 推荐体检/周边游等不符合节日场景的选项 [9] - "细心派"讯飞星火/腾讯元宝实现需求匹配 组合推荐广场舞/园艺相关商品并附加情感建议 [18] 夸克AI技术优势 - 深度搜索功能采用"拆解-分析-检索-结果-追问"全链路模式 实现复杂问题精准解析 [28][34] - 高搜商体现为三重能力:智能需求拆解/权威信源追溯/动态调整验证 在健康/学术等专业领域建立数据库壁垒 [63][64][65][66][67] - 预判交互机制可主动延伸问题边界 如母亲节场景下自动追问无线耳机需求 [34] 夸克应用场景落地 - 图像识别技术可定位加拿大加里波第公园等境外景点 同步提供签证/路线/费用等衍生服务 [44][45][48] - 食品成分翻译功能解决进口商品识别难题 支持韩文蟹肉棒配料表即时翻译与比价 [53] - AI相机具备图片美化功能 可修改背景/服饰等元素生成大师级作品 [60] 产品市场表现 - 夸克作为阿里AI to C旗舰产品 近期发布"深度搜索"、"AI超级框"、"AI相机"三大功能模块 [67] - 用户规模突破2亿 以超级Agent架构确立"AI全能助手"定位 [67]
阿里夸克深度搜索:让AI更懂普通人的每一次需求本质
钛媒体APP· 2025-05-12 08:41
核心观点 - 阿里AI旗舰应用夸克推出国内首个"深度搜索"产品,通过深度思考能力、智能检索技术和精准回答功能解决复杂问题 [2] - 深度搜索代表AI从辅助工具向主动执行者演变,具备多模态理解、自主决策和任务拆解能力 [3][4] - 搜索行业正从信息检索向智能化服务转型,夸克通过技术迭代引领AI驱动的新时代 [3][10] 产品技术 - 深度搜索采用"先思考再检索"模式,全网精读数百页面核心信息并调用不同Agent,展示完整推理路径 [7] - 基于阿里自研推理大模型,夸克每天处理数十亿次搜索请求,实现超高"搜商" [4] - 多模态交互突破搜索框限制,支持图片智能处理(如风格转换)和拍照提问功能 [2][7] 用户体验 - 深度搜索可解析用户深层意图,在旅游规划等复杂场景中提供定制方案及风险预警 [4][5] - 与传统搜索相比,深度搜索能自动生成行程框架、考虑家庭成员特殊需求并响应追问 [4][5] - 产品即将推出"深度搜索Pro",提供专家级研究报告和更强大的分析能力 [9] 市场表现 - 夸克近期登顶中国港澳台及新加坡App Store免费榜和工具榜榜首 [9] - 华创证券研报认为夸克有望成为国民级"AI超级入口" [9] - 作为阿里AI to C门面,夸克连续发布AI超级框、AI相机等创新功能巩固领先地位 [2][10] 行业趋势 - AI搜索向场景化综合服务入口演变,需满足用户从"尝鲜"到"刚需"的持续迭代 [3][10] - 任务流AI成为新方向,需具备上下文理解、资源协调和外部系统调度能力 [2][3] - 科技公司需重新定位生态站位,阿里通过夸克推动全面AI化战略 [3][10]