检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

文章核心观点 - 卡内基梅隆大学的研究表明，在检索增强生成系统中，扩大检索语料规模可以有效提升系统性能，并且可以在一定程度上替代扩大生成模型参数所带来的收益，为在有限算力下提升RAG系统提供了更具性价比的路径[4][22] - 研究揭示了语料扩容带来的性能提升主要源于提高了答案证据被检索到的覆盖率，而非显著增强了模型利用证据的能力[15][19] - 研究指出，语料扩容的收益存在边际递减现象，尤其是在语料规模达到较高水平后，继续无上限扩容并不划算，需要结合成本进行精细的预算分配[4][13] 实验设计与方法 - 研究采用全因子设计，严格控制变量，仅让检索语料规模和生成模型规模变化，其余设置保持一致[8] - 检索语料使用ClueWeb22-A英文子集，总计包含约2.64亿真实网页文档，并随机均衡切分为12个分片，通过激活不同数量的分片来控制语料规模[9] - 生成端选用Qwen3模型家族的不同尺寸，覆盖从0.6B到14B的参数规模，并在三个开放域问答基准上进行评测[9] 关键发现：语料规模与模型规模的替代关系 - 实验结果显示明确的补偿效应：通过扩大检索语料，较小规模的模型可以达到甚至超过更大模型在较小语料下的表现[10] - 研究定义了“补偿阈值”，即小模型需要多少倍语料才能追平大模型在1个分片下的成绩。例如，在Natural Questions数据集上，0.6B模型需要约5倍语料才能追平1.7B模型在1个分片下的表现[11][12] - 这种追平趋势在TriviaQA与WebQuestions数据集上同样存在，表明语料扩容在多数设置下都能将性能缺口缩小一个甚至两个模型档位[12] 性能增长形态与工程启示 - 性能提升曲线呈现共同规律：从无检索到有检索的第一步带来最显著的提升，随后收益逐步下降，并在约5到6倍语料规模附近出现饱和趋势[13] - 对于工程实践，这意味着检索能力的从无到有带来最大增益，但在较高语料规模处继续无上限扩容的性价比不高[13] - 当推理资源受限时，优先考虑扩大检索语料与提升覆盖率，常常能让中等规模生成模型达到接近更大模型的表现[20] 性能提升的机制解释 - 语料扩容提升性能的核心机制是提高了检索到包含标准答案字符串的证据片段的概率，即提高了“黄金答案覆盖率”[16] - 研究定义了“上下文受益成功率”和“利用率”指标，实验显示，不同模型将可用证据转化为正确答案的效率整体相近且在不同语料规模下保持稳定[19] - 因此，语料扩容带来的关键收益主要体现在提高含答案证据进入上下文的概率，而非显著提升模型对既有上下文的利用能力[19][22]