Workflow
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线·2025-05-09 13:18

整理 | 华卫 近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为"ZeroSearch"的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全 消除对昂贵商业搜索引擎 API 的需求。 研究人员表示,"强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。" 据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交 互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大 量的 API 费用。 该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近 端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集 和预训练模型,允许其他研究人员和公 ...