强化学习框架ZeroSearch的核心创新 - 开源ZeroSearch框架通过模拟搜索引擎环境实现无需真实API交互的强化学习训练,显著降低训练成本[4][19] - 仅需3B参数LLM作为检索模块即可达到与真实搜索引擎相当的效果,14B参数版本甚至超越谷歌搜索性能[5][30][31] - 采用渐进式抗噪训练策略,初期提供高质量文档,后期按指数曲线增加噪声比例以提升模型鲁棒性[12][13][17] 技术实现细节 - 轻量微调使LLM具备生成"有用结果"和"噪声干扰"文档的双重能力,模拟真实搜索场景[7][10][11] - 兼容PPO和GRPO等多种强化学习算法,GRPO在稳定性上表现更优,PPO在任务灵活性上更具优势[19][21][34][35] - 通过课程学习机制动态调整文档质量,使模型从简单场景逐步过渡到复杂检索任务[13][14][17] 性能表现对比 - 在单跳问答任务中,ZeroSearch-base模型平均准确率达38.61%,显著高于RAG(25.51%)和RA-Agent(20.71%)[24][25] - 多跳问答任务中,ZeroSearch-instruction版本以40.54%平均准确率超越所有基线方法,展示复杂推理能力[24][26] - LLaMA-3.2-3B模型上ZeroSearch奖励曲线比真实搜索引擎(Search-R1)更平滑且最终性能更高[28][29] 经济性与扩展性优势 - 完全消除搜索引擎API调用成本,使大规模RL训练经济可行[19][22] - 7B参数模型即达到谷歌搜索水平,参数扩展性验证其在大型模型的应用潜力[30][31] - 训练数据自生成机制形成闭环生态,提升训练灵活性和可扩展性[18][22][37]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位·2025-05-17 11:50