文章核心观点 - ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程 [1] - 该框架提供了一个轻量、通用且易扩展的解决方案,在多项基准任务中带来显著性能提升,尤其在HotpotQA上刷新了当前最优结果 [1][2] - 该方法对信息检索、问答系统、专业领域大模型应用具有重要价值,未来计划进一步拓展到更多专业场景 [5] 技术背景与痛点分析 - 现有RAG方法普遍忽视词汇多样性问题,导致检索模型因同一问题的不同表达方式而产生错误答案 [4][5] - 词汇多样性表现为不变词(如人名)、可变词(如职业同义词)和补充信息(如扩展语境)三种成分,常导致模型错误判断文档相关性 [6][8] 核心技术创新 - 提出Diversity-sensitive Relevance Analyzer (DRA)模块,通过拆解查询语义并对不同成分采用差异化策略,实现更细粒度的相关性评分 [9][12] - 提出Risk-guided Sparse Calibration (RSC)模块,通过实时监控生成token的"被误导风险"并进行稀疏校准,防止生成阶段被无关信息干扰 [11][13][14] - DRA负责精准检索,RSC负责防止生成偏差,形成检索与生成环节的双保险 [15] 实验性能结果 - 在PopQA短文本问答任务上准确率达到68.3%,较基线提升4.9个百分点 [16] - 在TriviaQA短文本问答任务上准确率达到77.4%,较基线提升4.4个百分点 [16] - 在HotpotQA多跳问答任务上准确率达到46.4%,较基线大幅提升10.6个百分点 [16] - 在2WikiMultiHopQA多跳问答任务上准确率达到54.6%,同样提升10.6个百分点 [16] - 在ASQA长答案生成任务的str-em、QA-F1等指标上刷新SOTA [16] - 该方法在Llama2-7B、Llama2-13B、Qwen2-7B等多种类型和尺寸的模型上均表现出显著性能增益 [18] 应用价值与前景 - 该方法解决了RAG系统因词汇多样性导致的准确性问题,让大模型不仅能"读懂"更能"理解"复杂的人类语言表达 [5] - 框架具有轻量、通用且易扩展的特点,适用于信息检索、问答系统及专业领域大模型应用 [1][5]
让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多项基准SOTA
量子位·2025-09-27 15:00