Workflow
检索增强生成(RAG)系统鲁棒性
icon
搜索文档
卡内基梅隆大学团队:如何全面检测RAG系统鲁棒性?
搜狐财经· 2025-06-08 10:53
RAG系统鲁棒性研究 - 卡内基梅隆大学与亚马逊团队提出RARE框架,从查询扰动、文档扰动和真实世界检索扰动三方面全面评估RAG系统鲁棒性 [3][5][6] - 当前RAG评估方法依赖静态数据集,偏向依赖记忆而非检索能力的模型,导致评估结果过于乐观 [2] - RARE框架包含三大组件:RARE-Met(评估指标)、RARE-Get(数据生成管道)、RARE-Set(专业领域数据集) [3][7][10] RARE-Met评估体系 - 定义鲁棒RAG系统的两大能力:内部知识稳定性与外部检索依赖性 [5] - 引入三类扰动测试:查询扰动(字符/词级错误、语法变化)、文档扰动(词汇/答案相关性变化)、真实世界检索扰动 [5][6] - 计算四类鲁棒性指标:总体鲁棒性、查询鲁棒性、文档鲁棒性、真实世界检索鲁棒性 [6] RARE-Get数据生成技术 - 全自动四阶段管道:构建真实文本块→知识图谱提取→查询模式识别→查询生成与质检 [8] - 利用GPT-4.1提取结构化三元组,E5-Mistral-7B-Instruct标准化语义关系 [8] - 支持生成单跳和三种多跳查询模式(链式、星形、反星形),质检阈值设定为3/5分以上 [8][9] RARE-Set专业数据集 - 覆盖金融(SEC 10-k文件)、经济(经合组织调查)、政策(HUD报告)三大领域 [10] - 包含48,322个时间敏感问题,其中金融文档优先提取绩效指标和财务事件关系 [4][10] - 数据规模:150份SEC文件、114份经济调查、214份政策报告,支持动态扩展 [10][11] 实验关键发现 - 文档扰动对系统影响最大(所有类型扰动均显著降低性能),查询扰动中词级错误影响最突出 [16][17] - 模型鲁棒性不完全依赖参数规模:Qwen3-14B优于Qwen3-32B,GPT-4.1-nano超越GPT-4.1-mini [13][17] - 领域差异显著:金融领域表现最佳(标准化数据),经济领域最差(复杂因果关系) [14][15][17] - 多跳查询鲁棒性普遍低于单跳查询,小模型差距更明显 [15][17]