深度搜索 - 财报，业绩电话会，研报，新闻

深度搜索

搜索文档

30B参数超越GPT-5！REDSearcher让「深度搜索Agent」做到低成本可扩展！

机器之心· 2026-03-08 10:31

AI Agent深度搜索技术框架REDSearcher - REDSearcher是一个低成本、可扩展的AI Agent训练框架，旨在解决长程深度搜索任务[2] - 该框架使用30B规格模型，在深度搜索任务上取得了开源模型的SoTA（State-of-the-Art）性能，并超越了GPT-5、Gemini-2.5-pro、Claude-4.5-sonnet等闭源模型[2][26] - 其核心在于系统性设计，提供了一条可复现、低成本的深度搜索智能体训练路径[28] 深度搜索任务的核心挑战与量化标准 - 深度搜索的核心挑战在于处理信息分叉交织形成的回环，要求Agent同时记忆多路推论、验证一致性并准备整体回溯[8] - 团队引入图论中的TreeWidth（树宽）概念来量化“结构性困难”[8] - 线性/树状（树宽=1）：典型链式推理[11] - 菱形/回环（树宽=2）：出现分叉与重汇合，要求维持多路假设一致性[11] - 强耦合子图（树宽≥3）：形成网状约束，需将零散证据拼合成一致整体[11] - 引入“信息分散度”概念，即覆盖全部关键证据所需的最小来源数，以杜绝搜索“捷径”[10] 自动化合成高难度问题的方法 - 基于双约束复杂度标准（树宽与分散度），采用graph-to-text流程自动化合成高难度深度搜索问题[13] - 设计了基于“结构化信息”与“网络浏览”两套图构造流程，以覆盖不同搜索环境[13] - 通过“模态注入”将纯文本推理图转化为跨模态推理，使部分约束锚定在图像中，实现向多模态搜索领域的高效迁移[13][14] 低成本Mid-Training强化智能体能力 - 采用可扩展的两阶段Mid-Training框架，依次强化模型的“原子能力”与“组合能力”，实现从语言建模到智能体的过渡[16] - 原子能力建设针对深度搜索重要的两个基础能力优化[21] - 组合能力建设通过环境交互强化长程任务中的状态维持与目标一致性，全程以成本为约束[21] 多模态扩展能力 - 通过拓扑结构增强，引入大模型智能体对初始依赖图进行“拓扑加密”，通过添加环状与交错约束提升结构复杂度[18] - 在问题构造阶段主动植入工具调用需求，使工具调用成为解题前置条件[18] - 通过视觉属性锚定、跨模态依赖、视觉语义抽象和模态灵活插入四种策略，构建多模态深度搜索问题[19] 后训练持续进化策略 - 后训练采取SFT + Agentic RL双阶段增强[22] - 构建“功能等价”的本地模拟环境，保持API一致、证据完备且含噪声，以低成本加速实验迭代[25] - 采用Agent-as-Verifier对强化学习问题集进行校验，避免数据污染影响训练稳定性[25] - 观察到效率与性能同步提升的现象：模型平均交互轮次下降，但准确率持续提升，表明其学会了更精准的信息获取策略[22] 实验结果与性能表现 - REDSearcher（30B-A3B）在多项深度搜索权威基准上取得优异表现[24] - 在BrowseComp基准上取得42.1 / 57.4*分[27] - 在BrowseComp-zh基准上取得49.8 / 58.2*分[27] - 在GAIA基准上取得80.1分[27] - 在HILE基准上取得34.3分[27] - Overall得分51.6[27] - REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平，性能超过Gemini-2.5-pro，在部分基准上接近Gemini-3-pro[26] - REDSearcher-MM-RL（30B）在MMSearch基准上取得57.2分[27] - 在BrowseComp基准上取得31.2分[27] - 在BrowseComp-zh基准上取得44.5分[27]

Artificial Intelligence

Artificial Intelligence

REDSearcher

DeepAgent与DeepSearch双双霸榜！答案指向openJiuwen这一新兴开源项目

机器之心· 2026-02-12 13:16

行业趋势与市场背景 - 2025年被称为“AI智能体元年”，行业涌现大量智能体，市场对更高级、更通用、更可靠的超级智能体存在全球性集体渴望 [1] - 衡量智能体实力的两大权威基准是GAIA（通用智能基准）和BrowseComp-Plus（深度研究与网页浏览能力基准），它们已成为行业核心比拼赛场 [1] 核心事件与成就 - 基于新兴开源项目openJiuwen构建的智能体DeepAgent和DeepSearch，双双登顶GAIA和BrowseComp-Plus两大权威榜单榜首 [2] - DeepAgent以91.69%的平均得分登顶GAIA榜首，超越了英伟达Nemotron等一众海内外领先智能体 [4][5] - DeepSearch以80.00%的准确率登顶BrowseComp-Plus榜首，领先第二名（准确率78.41%）1.59个百分点 [26][28] GAIA基准与DeepAgent分析 - GAIA是由Meta与Hugging Face联合打造的通用智能体评测基准，覆盖长程任务规划、多模态理解、工具调用等12类核心能力，设置三个难度等级，Level 3任务难度接近人类水平 [8] - 人类参与者在GAIA测试上的平均成功率约为92%，而GPT-4（即使有插件帮助）的表现仅约15%，凸显了该基准的严苛性 [9] - DeepAgent得分91.69%，已无限接近人类92%的水平，意味着其在规划、执行稳定性、工具协同等维度形成系统级优势，通用智能体任务执行能力接近人类 [13] - DeepAgent的三大核心理念支撑其登顶：1）具备动态自演进引擎，实现从“线性执行”到“闭环自治”；2）拥有多层级上下文引擎，保障认知一致性；3）采用异步工具编排总线，实现异构工具的统一调度与可靠执行 [16][17][19][20][21] BrowseComp-Plus基准与DeepSearch分析 - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准，覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [29] - 该基准采用固定人工验证语料库和严格准确率评分，规避了实时网络动态性带来的评测偏差，结果可复现、可审计 [30][31] - DeepSearch登顶意味着其在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势 [31] - DeepSearch通过构建三大核心引擎实现突破：1）实体认知引擎，自动识别关键实体并建立可追踪的状态演变历史；2）并行推理路径管理，将复杂问题分解为多分支推理路径动态探索；3）智能行动探索系统，通过异步并发与自适应调度平衡探索深度与路径多样性 [32][33][35][37][39] 底层技术平台：openJiuwen - DeepAgent和DeepSearch的硬核实力均依托于同一个技术底座——开源平台openJiuwen [42] - openJiuwen是一个面向生产环境打造的平台，聚焦智能体的高精准、高可控执行，构建了从开发、调度、执行到优化的全链路能力体系 [42] - 平台原生支持多智能体协同和智能体自演进，其智能体控制器结合上下文引擎的异步压缩与动态卸载能力，适配复杂任务的调度需求 [43] - openJiuwen创新性地将Agent自演进融入架构原生设计，支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化，让智能体能够持续演进 [43] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地，赋能鸿蒙智能体开发，并逐步进入金融、制造等行业核心生产系统 [43] 行业意义与定位 - 基于openJiuwen构建的智能体在两大权威榜单登顶，标志着智能体领域出现清晰分水岭：一边是停留在“语言交互”的智能体，另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [45][46] - openJiuwen的定位是为生产级智能体提供一个高准确、高可用、高效率的一站式AI Agent平台，开发者可基于此构建复杂、可靠的智能体应用 [46][47]

AI 智能体

通用智能体

深度搜索

Artificial Intelligence

Artificial Intelligence

DeepAgent

DeepSearch

登顶SuperCLUE DeepSearch，openPangu-R-72B深度搜索能力跃升

机器之心· 2025-12-05 18:17

评测结果与行业动态 - 第三方评测机构SuperCLUE发布的11月DeepSearch评测报告显示，国产大模型openPangu-R-72B在模型榜单中名列第一，体现了国产昇腾算力的大模型研发实力 [1] - 在SuperCLUE-DeepSearch中文深度搜索测评模型总榜中，openPangu-R-72B以73.33的总分位列第一，领先于Google的Gemini-3-Pro-Preview（70.48分）和OpenAI的GPT-5.1(high)（70.48分）[2] - 该模型在人文社科、工程技术和自然科学三个子任务类别中得分分别为75.47、54.55和83.33 [2] 模型架构与技术底座 - openPangu-R-72B是基于昇腾集群训练的MoE（混合专家）模型，采用80选8的专家选择机制，在740亿总参数量的基础上，将激活参数量控制在150亿，以平衡效率与性能 [4] - 模型使用了24万亿tokens的训练数据，并具备128k长序列处理能力，为处理深度搜索任务中的长文本信息奠定了基础 [4] - 在注意力机制层面引入了参数式Sink Token技术，有效缓解极大激活值问题，提升了训练稳定性并对后续量化更亲和 [7] - 采用K-Norm与Depth-Scaled Sandwich-Norm组合的架构，其中K-Norm仅对attention的key施加RMS Norm，在达到与QK-Norm相当稳定性的同时降低了计算开销 [7] - 通过增加Query头数和注意力头维度来捕获细粒度语义关系，并引入Partial RoPE机制，仅对Query和Key中1/3维度应用位置编码 [7] - 通过将KV组数量减半，在Key头维度增加的情况下，实现了37.5%的KV cache缩减，平衡了推理阶段的显存占用、速度与模型效果 [7] - 采用Adaptive Aux Free负载优化技术的升级版本，通过自适应调整各个专家负载bias的更新幅度，有效减少均衡震荡，让专家负载分布更均衡 [8] 深度搜索能力专项优化 - 模型通过后训练阶段的长链难题合成、非索引信息处理、快慢思考融合三大策略，显著提升了DeepSearch能力 [10] - 在长链QA难题合成方面，通过query条件模糊化将问题平均难度提升10%，并引入verification agent以提升用于训练问答对的准确性 [12] - 针对非索引知识问答场景，训练中注入了“Planner聚焦关键URL + URL_crawler爬取网页 + Document_QA识别下一步浏览链接”的循环工作流，通过同一站点内的多跳浏览实现深度信息搜集 [12] - 采用步骤级快慢融合策略，在DeepSearch的ReACT执行过程中，为Document_QA步骤启用慢思考以保障精度，为其他工具调用步骤采用快思考以提升速度，实现精度与效率的平衡 [13] 国产算力与模型生态 - openPangu-R-72B是基于国产昇腾算力平台训练的代表模型，证明了该平台在支撑大参数量、高复杂度模型研发方面的坚实能力 [15] - openPangu系列的兄弟模型openPangu-718B在同期SuperCLUE通用榜单中斩获第二名，展现了该系列在不同任务场景下的全面实力 [15] - 随着大模型在企业服务、学术研究、政务处理等领域的深度落地，深度搜索能力被视为模型实用化的核心竞争力 [15]

大模型

深度搜索

Artificial Intelligence

Artificial Intelligence

openPangu-R-72B

openPangu-718B

高搜商的AI，都快学会抢答了

搜狐财经· 2025-05-12 14:04

AI大模型性能对比 - 主流AI大模型在母亲节送礼建议测试中表现分化形成"广告派"(Kimi)、"敷衍派"(豆包)、"细心派"(讯飞星火/腾讯元宝)三大阵营 [5][6][9][18] - "广告派"Kimi推荐内容与用户需求脱节存在重复推荐已购品类及植入具体商品嫌疑 [5][6] - "敷衍派"豆包建议过于笼统推荐体检/周边游等不符合节日场景的选项 [9] - "细心派"讯飞星火/腾讯元宝实现需求匹配组合推荐广场舞/园艺相关商品并附加情感建议 [18] 夸克AI技术优势 - 深度搜索功能采用"拆解-分析-检索-结果-追问"全链路模式实现复杂问题精准解析 [28][34] - 高搜商体现为三重能力：智能需求拆解/权威信源追溯/动态调整验证在健康/学术等专业领域建立数据库壁垒 [63][64][65][66][67] - 预判交互机制可主动延伸问题边界如母亲节场景下自动追问无线耳机需求 [34] 夸克应用场景落地 - 图像识别技术可定位加拿大加里波第公园等境外景点同步提供签证/路线/费用等衍生服务 [44][45][48] - 食品成分翻译功能解决进口商品识别难题支持韩文蟹肉棒配料表即时翻译与比价 [53] - AI相机具备图片美化功能可修改背景/服饰等元素生成大师级作品 [60] 产品市场表现 - 夸克作为阿里AI to C旗舰产品近期发布"深度搜索"、"AI超级框"、"AI相机"三大功能模块 [67] - 用户规模突破2亿以超级Agent架构确立"AI全能助手"定位 [67]

阿里夸克深度搜索：让AI更懂普通人的每一次需求本质

钛媒体APP· 2025-05-12 08:41

核心观点 - 阿里AI旗舰应用夸克推出国内首个"深度搜索"产品，通过深度思考能力、智能检索技术和精准回答功能解决复杂问题 [2] - 深度搜索代表AI从辅助工具向主动执行者演变，具备多模态理解、自主决策和任务拆解能力 [3][4] - 搜索行业正从信息检索向智能化服务转型，夸克通过技术迭代引领AI驱动的新时代 [3][10] 产品技术 - 深度搜索采用"先思考再检索"模式，全网精读数百页面核心信息并调用不同Agent，展示完整推理路径 [7] - 基于阿里自研推理大模型，夸克每天处理数十亿次搜索请求，实现超高"搜商" [4] - 多模态交互突破搜索框限制，支持图片智能处理（如风格转换）和拍照提问功能 [2][7] 用户体验 - 深度搜索可解析用户深层意图，在旅游规划等复杂场景中提供定制方案及风险预警 [4][5] - 与传统搜索相比，深度搜索能自动生成行程框架、考虑家庭成员特殊需求并响应追问 [4][5] - 产品即将推出"深度搜索Pro"，提供专家级研究报告和更强大的分析能力 [9] 市场表现 - 夸克近期登顶中国港澳台及新加坡App Store免费榜和工具榜榜首 [9] - 华创证券研报认为夸克有望成为国民级"AI超级入口" [9] - 作为阿里AI to C门面，夸克连续发布AI超级框、AI相机等创新功能巩固领先地位 [2][10] 行业趋势 - AI搜索向场景化综合服务入口演变，需满足用户从"尝鲜"到"刚需"的持续迭代 [3][10] - 任务流AI成为新方向，需具备上下文理解、资源协调和外部系统调度能力 [2][3] - 科技公司需重新定位生态站位，阿里通过夸克推动全面AI化战略 [3][10]