成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

核心观点 - 提出ZeroSearch框架无需真实搜索即可激活大语言模型搜索能力通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤提升推理路径清晰度格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量通过指数函数控制Noisy文档生成概率实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎避免传统方法频繁调用API的高成本公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术仅对策略模型自生成token计算损失防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段：初期缓慢提升难度学习基础逻辑中期快速提升强化推理后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线：ZeroSearch-base达40.93分超过Search-R1-base的39.51分[20] - 参数量扩展性：3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势单跳问答任务NQ最高43.6分多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索波动更小最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分超过Prompt-7B的31.39分验证微调必要性[28] - 交互轮数呈现U型变化：初期冗余调用导致高轮数中期效率提升轮数下降后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练验证系统性能力提升路径的有效性[36]