ZeroSearch

搜索文档
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位· 2025-05-17 11:50
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。 但问题来了: 一方面,搜索引擎返回的文档质量难以预测,给训练过程带来了噪音和不稳定性。 另一方面,RL训练需要频繁部署,会产生大量API开销,严重限制可扩展性。 现在,来自阿里通义实验室的解决方案公开了:开源 ZeroSearch ,提供了一种 无需与真实搜索引擎交互 的强化学习框架。 实验表明,ZeroSearch仅需3B参数的LLM作为检索模块,即可有效提升搜索能力,节省了高昂API成本。 ZeroSearch让LLM"自给自足"实现搜索进化 研究团队用 模拟搜索环境+渐进式抗噪训练 ,让LLM不再依赖昂贵搜索引擎API。 轻量微调:把LLM变成"搜索引擎模拟器" 用少量标注数据微调LLM,使其能按指令生成两种文档—— 有用结果 和 噪声干扰 。 通过收集与真实搜索引擎交互的数据,ZeroSearch对LLM进行轻量级监督微调。 在这个过程中,模型学会生成与真实搜索引擎风格相似的文档,同时能够根据提示词生成相关或噪声文档。 这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模 ...
AI动态汇总:英伟达Llama-Nemotron模型表现优异,小米Mi-BRAG智能引擎亮相
中邮证券· 2025-05-14 21:08
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Llama-Nemotron** - **模型构建思路**:通过神经架构搜索(NAS)和垂直压缩技术优化推理效率,结合知识蒸馏和强化学习提升模型推理能力[14][15][16] - **具体构建过程**: 1. **神经架构搜索阶段**:使用Puzzle框架进行块级局部蒸馏,构建Transformer模块库,通过混合整数规划(MIP)求解器选择最优配置 $$ \text{MIP目标函数:} \min \sum_{i=1}^{n} c_i x_i \quad \text{s.t.} \quad Ax \leq b $$ (其中$c_i$代表模块计算成本,$x_i$为选择变量)[16][17] 2. **FFN融合技术**:识别连续FFN块并替换为更宽的并行层,减少序列深度[19][20] 3. **知识蒸馏与预训练**:使用Llama 3.1-405B-Instruct作为参考模型恢复质量损失[21] 4. **监督微调**:采用带推理轨迹的合成数据训练,构建"推理开关"指令响应机制[22][23] 5. **强化学习**:采用GRPO算法进行14万H100小时的STEM领域训练[24] - **模型评价**:在GPQA-Diamond基准测试中实现57.1%准确率,推理效率较DeepSeek-R1提升30%[15][23][26] 2. **模型名称:VPP(Video Prediction Policy)** - **构建思路**:基于AIGC视频扩散模型开发两阶段学习框架,解决机器人动作预测与执行问题[36][38] - **具体构建过程**: 1. **第一阶段**:视频扩散模型学习预测性视觉表征,提取单步去噪的中间层特征[40] 2. **第二阶段**:通过Video Former和DiT扩散策略生成动作指令,控制频率达50Hz[38][40] 3. **多本体适配**:直接学习不同机器人/人类视频数据,消除动作维度限制[41] - **模型评价**:在Calvin ABC-D测试中任务完成长度达4.33(满分5.0),真机成功率67%[42][44] 模型的回测效果 1. **Llama-Nemotron模型** - GPQA-Diamond准确率:57.1%(5-shot CoT)[53] - MMLU Pro准确率:77.2%(5-shot CoT)[53] - 推理延迟:较基线降低40%[16][20] 2. **VPP模型** - Calvin ABC-D任务长度:4.33/5.0[42] - 真机操作成功率:67%[42] - 预测频率:6-10Hz,控制频率50Hz[40] 量化因子与构建方式 1. **因子名称:FFN Fusion效率因子** - **构建思路**:通过前馈网络融合技术提升Transformer计算利用率[19][20] - **具体构建**: $$ \text{融合效率}=1-\frac{T_{\text{原始}}}{T_{\text{融合后}}} $$ 其中$T$代表序列计算步骤数,实测提升多GPU环境吞吐量28%[20] 2. **因子名称:视频扩散预测置信度** - **构建思路**:量化单步去噪特征包含的未来信息量[40] - **具体构建**: $$ \text{置信度}=\frac{\|F_{t+1}-F_{\text{pred}}\|}{\|F_{t+1}\|} $$ ($F$为特征向量,实测150ms预测窗口准确率达92%)[40][41] 因子的回测效果 1. **FFN Fusion效率因子** - 计算利用率提升:28%[20] - 跨GPU通信开销降低:35%[20] 2. **视频扩散预测置信度** - 动作预测准确率:92%[40] - 错误率衰减速度:每帧降低15%[41] 注:部分模型(如Mi-BRAG、NetMaster)因缺乏量化构建细节未列入,测试结果均来自原文基准数据集[53][42]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]
通信行业周报:中美将开始接触,出海产业链预期向好
德邦证券· 2025-05-10 22:23
报告行业投资评级 - 通信行业投资评级为优于大市(维持) [2] 报告的核心观点 - 中美将开始接触关税摩擦或缓和,中国产业链有望受益,AI芯片进出口限制可能调整,算力竞争格局或改变,同时介绍行业要闻、本周市场表现及关注组合等内容 [4][10][11][12] 根据相关目录分别进行总结 投资策略 投资要点 - 中美将开始接触关税摩擦或将缓和,和谈可能启动,关税回调成必然,美国关税政策或使德国调整对华政策 [10] - 中国产业链深度介入国际市场,物联网模组市场我国厂商占主要份额,AI发展中我国是算力硬件重要供应商,有望受益关税摩擦缓和 [11] - AI芯片进出口限制或将调整,特朗普或放松芯片出口限制,中国市场广阔美企缺席损失大,算力竞争格局或迎变化 [12][13] 行业要闻 - 武汉规划布局1000个低空地面起降场,打造低空经济全产业链体系,建议关注低空产业链条相关企业 [14] - 阿里开源创新大模型搜索引擎ZeroSearch,成本直降80%且能力更强,国产算力需求或进一步增长,建议关注国产算力及配套企业 [15] - Starlink获准在印度开展卫星通信服务,卫星互联网应用加速趋势或形成,或推动我国卫星互联网建设,建议关注相关企业 [16] - 深圳构建全球首个市域级“5G+毫米波+卫星”低空全覆盖安全网络,卫星互联网、低空融合应用在发展,建议关注相关企业 [17] 本周回顾及重点关注组合 - 本周通信(中信)涨幅0.02%,走势弱于上证指数,光模块、低空经济、卫星导航涨幅居前,建议关注出海链条投资机会,还列出周涨跌幅前十和后十股票 [18][21] - 下周关注出海链条相关企业,长期关注运营商、通信基建、主设备等多领域相关企业 [22] 行业新闻 运营商板块 - 中国联通启动算力服务器产品测试,测试结果作后续采购资格审查和技术评分依据 [23][24] - 中国广电2025年5G核心网扩容工程(一阶段)启动招标,采购预算不含税24659万元,含税27865万元 [24] 主设备板块 - 中国移动携手华为发布分布式推理网络(DIN)技术白皮书,定义目标架构,介绍节点间互联质量保障、推理服务调度、模型推理安全防护等关键技术 [25] 光通信板块 - 诺基亚推出面向未来的光纤解决方案Aurelis Optical LAN,电缆减少70%,功耗减少40%,可降低总拥有成本 [26] 物联网板块 - ABI Research预测2030年无源物联网设备出货量达11亿台,能量收集技术产业生态形成 [26] 智能终端板块 - 2025年Q1中国智能手机市场出货量同比增长9%,华为、小米排名居前,国家补贴计划刺激换机需求 [27] - 鸿蒙系统在电脑端首次亮相,预告鸿蒙电脑5月19日发布,已有众多应用适配 [28] 数据中心板块 - 我国第四代自主量子计算测控系统“本源天机4.0”发布,为百比特级量子计算机量产奠定产业化基础 [29] - 第八届数字中国建设峰会强调数据标注合规,中国电信发布相关平台和工具,数据标注产业取得阶段性成果 [30] 卫星互联网/商业航天 - 我国“天都一号”完成白天地月空间卫星激光测距,标志在深空轨道精密测量领域取得技术新突破 [31] 低空经济 - 山东省公示低空领域重点产品50个、典型应用场景30个,涵盖多个领域 [32] - 广西出台方案以低空经济等场景应用贯彻“观测即服务”理念,提升气象观测服务效能 [32] 上市公司公告 - 上海华测导航技术股份有限公司股东上裕创投计划减持不超200万股 [33] - 深圳市欣天科技股份有限公司股东薛枫计划减持不超580.4076万股 [34][35] - 新亚电子股份有限公司多位董事及高管拟减持股份 [36] - 江苏中天科技股份有限公司第五期回购股份,截至4月30日累计回购1577.12万股 [37] - 北京映翰通网络技术股份有限公司截至4月30日回购198000股 [38] - 深圳市信维通信股份有限公司截至4月30日累计回购15100031股 [39] - 长飞光纤光缆股份有限公司截至4月30日累计回购A股400万股 [41] 大小非解禁、大宗交易 - 本周嘉环科技、天孚通信等公司有大小非解禁,还列出解禁数量等信息 [43] - 本周剑桥科技、普天科技等公司有大宗交易,列出成交价、折价率等信息 [44]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 17:35
ZeroSearch 不是让搜索消失,而是让搜索真正"融入"智能本身。 整理| 梦依丹 ZeroSearch 的思路是 先用轻量级的监督微调,将大模型转化为一个能根据查询生成"相关"与"干扰"文档的检索模块;再通过"逐步降低文档质量"的课 程式训练策略,挑战模型的推理和检索能力,从而实现更稳健的搜索学习路径。 不依赖搜索引擎的 PPO 和 GRPO 训练演示 其做法是: 出品丨AI 科技大本营(ID:rgznai100) 仅需 70.8 美元,在 4 块 A100 GPU 上运行 140亿参数模型,你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力! 近日,阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch,这是一款由大模型驱动的生成式搜索引擎框架,训练过程无需调用任何外部搜索 接口,完全"自给自足",实现了低成本,高性能的检索能力构建。 传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题, ZeroSearch 引入了一种全新的强化学习框架——在不与 真实搜索引擎交互的前提下训练出"搜索能力" 。 优化目标如下: 其中, 是待优化的策略模型, 是参考模型, ...
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 13:18
核心技术突破 - 阿里巴巴研究人员发布名为"ZeroSearch"的新技术,可完全消除对昂贵商业搜索引擎API的需求,大幅降低AI系统训练成本和复杂度[1] - 该技术采用强化学习框架,允许大语言模型通过模拟方式开发高级搜索功能,无需在训练过程中与真实搜索引擎交互[2] - 使用3B参数的LLM作为模拟搜索引擎即可有效提升搜索能力,70亿参数模块性能媲美谷歌搜索,140亿参数模块甚至超越谷歌[3] 性能表现 - 在七个问答数据集测试中,ZeroSearch性能与真实搜索引擎训练模型相当或更优[3] - 表格数据显示ZeroSearch-inst在Qwen-2.5-7B模型上平均得分达40.54,显著高于传统方法[5] - 14B参数的SFT模型平均得分33.97,超越Google搜索引擎的32.47[6] 成本优势 - 使用64000个搜索查询训练时,Google API成本586.7美元,而14B参数模拟LLM仅需70.8美元,成本降低88%[7] - 技术消除了大规模RL训练中数十万次API调用产生的高额费用[2] 技术实现原理 - 通过轻量级监督微调将LLM转化为检索模块,生成相关和不相关文档响应查询[9] - 采用基于课程搜索模拟的推出策略,逐步增加训练难度[11] - 使用基于F1分数的奖励信号作为强化学习监督[12] 行业影响 - 技术突破可能改变AI开发经济模式,减少对大型技术平台的依赖[14] - 为预算有限的小型AI公司和初创企业创造公平竞争环境[14] - 显示AI系统可不依赖外部工具实现能力提升,未来技术格局或将重塑[15] 适用性与扩展性 - 技术适用于Qwen-2.5和LLaMA-3.2等多个模型系列[2] - 兼容PPO、GRPO等各种RL算法,无需单独监督预热阶段[2] - 增加GPU数量可显著提升模拟LLM生成吞吐量,实现高效大规模部署[4]