拜拜，昂贵的谷歌搜索 API！阿里开源 RL 框架让大模型自给自足、成本直降88%，网友：游戏规则变了

核心技术突破 - 阿里巴巴研究人员发布名为"ZeroSearch"的新技术，可完全消除对昂贵商业搜索引擎API的需求，大幅降低AI系统训练成本和复杂度[1] - 该技术采用强化学习框架，允许大语言模型通过模拟方式开发高级搜索功能，无需在训练过程中与真实搜索引擎交互[2] - 使用3B参数的LLM作为模拟搜索引擎即可有效提升搜索能力，70亿参数模块性能媲美谷歌搜索，140亿参数模块甚至超越谷歌[3] 性能表现 - 在七个问答数据集测试中，ZeroSearch性能与真实搜索引擎训练模型相当或更优[3] - 表格数据显示ZeroSearch-inst在Qwen-2.5-7B模型上平均得分达40.54，显著高于传统方法[5] - 14B参数的SFT模型平均得分33.97，超越Google搜索引擎的32.47[6] 成本优势 - 使用64000个搜索查询训练时，Google API成本586.7美元，而14B参数模拟LLM仅需70.8美元，成本降低88%[7] - 技术消除了大规模RL训练中数十万次API调用产生的高额费用[2] 技术实现原理 - 通过轻量级监督微调将LLM转化为检索模块，生成相关和不相关文档响应查询[9] - 采用基于课程搜索模拟的推出策略，逐步增加训练难度[11] - 使用基于F1分数的奖励信号作为强化学习监督[12] 行业影响 - 技术突破可能改变AI开发经济模式，减少对大型技术平台的依赖[14] - 为预算有限的小型AI公司和初创企业创造公平竞争环境[14] - 显示AI系统可不依赖外部工具实现能力提升，未来技术格局或将重塑[15] 适用性与扩展性 - 技术适用于Qwen-2.5和LLaMA-3.2等多个模型系列[2] - 兼容PPO、GRPO等各种RL算法，无需单独监督预热阶段[2] - 增加GPU数量可显著提升模拟LLM生成吞吐量，实现高效大规模部署[4]