大模型搜索总偷懒？IQuest等联合推出FORT，30B开源搜索Agent刷新同规模SOTA

文章核心观点 - 大模型智能体的发展方向正从“回答问题”转向具备“自主搜索、验证、综合证据”能力的Deep Search Agent [1] - 训练此类智能体的关键在于构建能够抵抗“捷径”、真正提升搜索难度的训练数据，而非仅仅构造表面复杂的问题 [3][7][35] - 至知创新研究院等机构提出的FORT框架，通过理论建模“捷径塌陷”风险并转化为数据合成中的显式控制项，生成了高质量的搜索训练数据 [3][9][35] - 基于FORT数据训练的FORT-Searcher模型（30B参数规模）在多个Deep Search基准测试中取得了同规模开源智能体的最优整体表现 [23][24][25] 技术框架与理论创新 - FORT框架的核心理论：区分了问题的“表面难度”与“实现难度”，后者指模型在真实搜索中必须经历充分证据获取过程才能识别答案的难度 [7] - 关键概念：将Deep Search任务形式化为“多约束检索任务”，并定义了“最廉价识别路径”，真正的难度取决于是否存在足够便宜的答案识别路径 [7][8] - 捷径风险分类：系统地将降低真实搜索成本的捷径归纳为四类风险，并置于统一的“捷径感知难度框架”中 [9][13] - 数据合成目标：FORT的目标是系统性地减少“廉价识别路径”，而非简单地将问题做长 [10] 数据合成方法 - 合成流程：包含图初始化、图构建、问题表述和对抗性优化四个阶段 [11] - 降低先验知识捷径：优先选择没有英文维基百科页面的“长尾实体”作为根实体，并使用基于循环的初始化方式，减少中间实体暴露 [14] - 构建异构证据图：重点是从多种外部来源收集事实、构造衍生事实，以降低证据共覆盖风险，并选择“单独平凡、组合定位”的事实 [15][16] - 衍生事实设计：通过跨记录匹配、计数聚合、数值关系或元信息抽取等方式构造新约束，而非直接摘取网页原文 [16][17] - 问题表述优化：隐藏中间实体名称，对必须出现的精确数值、日期等进行“精确值模糊化”处理，迫使模型必须通过搜索发现关键信息 [19][20][21] - 对抗性优化：使用强搜索智能体实际求解草稿问题，根据轨迹中的解决成本、答案命中时间和先验捷径行为来诊断并修复残余捷径 [22] 模型性能与评估 - 模型基础：FORT-Searcher使用Qwen3-30B-A3B-Thinking-2507作为基座模型，仅通过监督微调训练，推理时约激活30亿参数 [3][23] - 评测基准：覆盖BrowseComp、BrowseComp-ZH、xbench-DeepSearch-2505、xbench-DeepSearch-2510和Seal-0五个挑战性Deep Search基准 [23] - 主要结果： - 在可比规模的开源智能体中取得最高整体分数66.2，超过MiroThinker-1.7-mini的64.6和Qwen3.5-35B-A3B的59.9 [24][25] - 在BrowseComp上得分72.2，高于MiroThinker-1.7-mini的67.9；在BrowseComp-ZH上得分75.0，高于MiroThinker-1.7-mini的72.3 [24][25] - 在xbench-DeepSearch-2505上得分80.8，超过同规模开源基线 [24][25] - 仅激活30亿参数，却在BrowseComp上超过多个更大规模的开源智能体，并在BrowseComp-ZH上取得所有开源智能体的最高结果 [25] 数据质量分析 - 轨迹特征分析：引入解决成本、答案命中时间和先验捷径率作为评估训练数据质量的关键指标 [27][28] - 数据对比：相比已有开源Deep Search数据，FORT数据带来了更高的解决成本和更晚的答案命中时间 [29] - 相比最强基线REDSearcher，FORT将平均解决成本从92.1提升到141.0 [29] - 将平均答案命中时间从18.7推迟到46.9，同时先验捷径率保持在相近水平（11.0% vs 11.8%） [29] - 训练数据分析：单纯提高平均轨迹长度只能带来有限性能提升；在相近轨迹长度下，答案发现过程更长、先验捷径更少的训练数据能带来更好的训练效果 [32][33] - 核心经验：高质量搜索监督的关键在于答案发现过程是否足够必要、难以被捷径绕过，而不仅仅是轨迹长度 [34]