Workflow
TreeWidth(树宽)
icon
搜索文档
30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!
机器之心· 2026-03-08 10:31
AI Agent深度搜索技术框架REDSearcher - REDSearcher是一个低成本、可扩展的AI Agent训练框架,旨在解决长程深度搜索任务[2] - 该框架使用30B规格模型,在深度搜索任务上取得了开源模型的SoTA(State-of-the-Art)性能,并超越了GPT-5、Gemini-2.5-pro、Claude-4.5-sonnet等闭源模型[2][26] - 其核心在于系统性设计,提供了一条可复现、低成本的深度搜索智能体训练路径[28] 深度搜索任务的核心挑战与量化标准 - 深度搜索的核心挑战在于处理信息分叉交织形成的回环,要求Agent同时记忆多路推论、验证一致性并准备整体回溯[8] - 团队引入图论中的TreeWidth(树宽)概念来量化“结构性困难”[8] - 线性/树状(树宽=1):典型链式推理[11] - 菱形/回环(树宽=2):出现分叉与重汇合,要求维持多路假设一致性[11] - 强耦合子图(树宽≥3):形成网状约束,需将零散证据拼合成一致整体[11] - 引入“信息分散度”概念,即覆盖全部关键证据所需的最小来源数,以杜绝搜索“捷径”[10] 自动化合成高难度问题的方法 - 基于双约束复杂度标准(树宽与分散度),采用graph-to-text流程自动化合成高难度深度搜索问题[13] - 设计了基于“结构化信息”与“网络浏览”两套图构造流程,以覆盖不同搜索环境[13] - 通过“模态注入”将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中,实现向多模态搜索领域的高效迁移[13][14] 低成本Mid-Training强化智能体能力 - 采用可扩展的两阶段Mid-Training框架,依次强化模型的“原子能力”与“组合能力”,实现从语言建模到智能体的过渡[16] - 原子能力建设针对深度搜索重要的两个基础能力优化[21] - 组合能力建设通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束[21] 多模态扩展能力 - 通过拓扑结构增强,引入大模型智能体对初始依赖图进行“拓扑加密”,通过添加环状与交错约束提升结构复杂度[18] - 在问题构造阶段主动植入工具调用需求,使工具调用成为解题前置条件[18] - 通过视觉属性锚定、跨模态依赖、视觉语义抽象和模态灵活插入四种策略,构建多模态深度搜索问题[19] 后训练持续进化策略 - 后训练采取SFT + Agentic RL双阶段增强[22] - 构建“功能等价”的本地模拟环境,保持API一致、证据完备且含噪声,以低成本加速实验迭代[25] - 采用Agent-as-Verifier对强化学习问题集进行校验,避免数据污染影响训练稳定性[25] - 观察到效率与性能同步提升的现象:模型平均交互轮次下降,但准确率持续提升,表明其学会了更精准的信息获取策略[22] 实验结果与性能表现 - REDSearcher(30B-A3B)在多项深度搜索权威基准上取得优异表现[24] - 在BrowseComp基准上取得42.1 / 57.4*分[27] - 在BrowseComp-zh基准上取得49.8 / 58.2*分[27] - 在GAIA基准上取得80.1分[27] - 在HILE基准上取得34.3分[27] - Overall得分51.6[27] - REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平,性能超过Gemini-2.5-pro,在部分基准上接近Gemini-3-pro[26] - REDSearcher-MM-RL(30B)在MMSearch基准上取得57.2分[27] - 在BrowseComp基准上取得31.2分[27] - 在BrowseComp-zh基准上取得44.5分[27]