DeepResearchGym Agentic Search Logs
搜索文档
先解行为,再训Agent:CMU开源首份Agentic Search日志数据,把Agent拆开给你看
机器之心· 2026-02-09 09:18
Agentic Search 行为研究的开创性数据集 - 卡内基梅隆大学团队基于DeepResearchGym平台,发布了首个开源的Agentic Search行为日志数据集,该数据集包含超过1400万条搜索请求和约400万个会话,数据来自横跨25个国家的近600个IP地址,并经过了严格的匿名化与清洗处理 [7][13][14] - 该研究填补了当前评测体系主要基于构造题目、缺乏对真实环境中智能体检索行为系统观察的空白,为观察与评估Agentic Search行为提供了首个大规模、可复现的数据基础 [2][7] 会话划分与任务意图分析框架 - 研究提出了“语义+时间”联合的会话切分策略,利用LLM和查询向量表示训练模型来划分会话,最终得到约400万个session,克服了传统固定时间阈值方法在智能体高频并发请求场景下的不足 [16][17][19] - 研究沿用经典的Web搜索目标分类,通过LLM将多轮会话的意图划分为三类:陈述型/事实检索、过程型/操作步骤检索、推理型/分析比较检索,统计显示日志中以陈述型任务为主 [22][25] - 不同任务意图在会话长度和检索配置上表现出明显差异,例如过程型任务更倾向一次性拉取更多文档,而推理型任务的查询文本往往更长、前后变化幅度更大 [22] 智能体检索轨迹的动态模式 - 研究将相邻查询之间的改写动作划分为四类:专化、泛化、探索、重复,并发现智能体呈现出明显的“下钻偏好”,即专化与探索使用频率较高,泛化相对稀少 [26][27] - 在大量事实型会话的后期,重复动作显著增多,形成“重试循环”,这可以被视为系统进入“原地重试”的潜在停滞信号 [27][29][41] - 智能体也表现出“重置-再细化”模式,即先在一个宽泛主题上做专化,随后通过泛化进行轻量级回溯,再沿着另一个侧面重新专化,整体上泛化更像是在不同细化分支间切换的工具 [30] 检索信息采纳率的关键指标与发现 - 研究提出了CTAR指标,用于间接衡量新的查询在多大程度上受到了既有检索信息的影响,计算方法是通过检查新查询中的新词是否在历史检索结果中以词面形式出现 [33][34][44] - 整体CTAR超过一半,达到54.35%,表明在相当多的步骤中,智能体会从已获取信息中采纳术语和约束 [34][37] - 不同改写动作的CTAR存在显著差异:专化动作的CTAR为78.35%,探索动作为69.59%,均明显高于平均水平;而重复动作的CTAR仅为20.92%,说明其更可能是表述微调而非基于新信息的策略调整 [35][37] - 历史上下文具有额外贡献,当纳入更早步骤的文档后,CTAR稳定提升,说明部分新词来源于更早的检索信息,智能体会一定程度上“回溯”历史上下文 [36] 对智能体搜索系统设计的启示 - 系统设计可将重复动作及其低CTAR值视为停滞信号,并基于此检测和中断重试循环,强制触发泛化或探索策略 [41][43] - 检索预算应随任务意图与轨迹动态自适应调整,而非采用全局统一配置,例如过程型任务更依赖一次性较宽的文档覆盖,推理型任务则更需要多轮细化与验证 [42] - 建议将CTAR等“信息采纳率”指标纳入系统监控与调度逻辑,当观测到CTAR长时间偏低或在特定模式下急剧下降时,可触发算法层或工作流层面的干预 [43]