s3 - 财报，业绩电话会，研报，新闻

搜索文档

机器之心· 2025-06-17 08:10

核心观点 - Agentic RAG 当前面临优化目标偏离、检索与生成耦合、评价标准不准确等挑战 [8][9][14] - s3 方法通过 Search-Select-Serve 范式和 Gain Beyond RAG 奖励函数，显著提升训练效率和生成效果 [1][16][17] - s3 仅需 2.4k 训练样本，在多个领域问答任务中超越数据规模大百倍的基线模型 [1][22][25] RAG 发展轨迹 - Classic RAG：使用固定 query 和 BM25 等检索器，生成器对结果无反馈 [7] - Pre-RL-Zero Active RAG：引入多轮 query 更新和 prompt 引导检索，如 IRCoT 和 Self-RAG [7] - RL-Zero 阶段：强化学习驱动检索行为，代表方法包括 DeepRetrieval 和 Search-R1 [7] 当前 RL-based Agentic RAG 的挑战 - 优化目标偏离：Exact Match 指标过于苛刻，导致模型优化答案 token 对齐而非搜索行为 [9][10] - 检索与生成耦合：无法区分性能提升来自更好的搜索还是更强的语言生成对齐能力 [11][12] - 评价标准不准确：传统 QA 指标与搜索质量关联有限，search-oriented 指标无法体现信息利用效果 [14] s3 方法设计 - 核心思想：只训练搜索器、冻结生成器，以生成结果提升为奖励 [16] - Gain Beyond RAG：衡量搜索到的上下文相比初始 top-k 检索结果是否带来真实增益 [17] - Generation Accuracy：结合 span 匹配和 LLM 判断，与人类判断一致率达 96.4% [18][32] 训练与优化 - 采用 PPO 进行策略优化，预筛除 naive RAG 能答对的样本，集中训练需要新检索信息的任务 [19][20] - 训练总时间仅需 114 分钟，比 Search-R1 的 3780 分钟大幅减少 [21][22] - 训练样本仅需 2.4k 条，比基线方法减少约 70 倍 [1][22][25] 实验分析通用 QA 任务 - s3 在五个数据集上实现最优表现，平均准确率优于 Search-R1 和 DeepRetrieval [23][24][25] - 使用不同下游 LLM（Qwen2.5-7B/14B-Instruct、Claude-3-Haiku）均展现稳定性能 [24] 医学 QA 任务 - s3 在医学领域展现强泛化能力，在 MedQA-US、MedMCQA 等数据集上优于基线 [26][27] - 使用不同语料库（Wikipedia2018 和 MedCorp）均保持稳定性能，无过拟合趋势 [27] 消融实验 - 原始问题作为检索起点有助于明确搜索目标，避免策略偏离主题 [31] - 文档选择机制减少输入 token 2.6 至 4.2 倍，提升效率并减少噪声干扰 [31] - s3 设计在准确性、训练效率和推理速度上达到最优平衡 [29][30]

Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG)