Workflow
修辞结构理论(RST)
icon
搜索文档
RAG搜对了却答错?德国萨尔大学找到了真相丨ACL'26
量子位· 2026-04-17 09:54
文章核心观点 - 传统RAG技术的核心痛点在于模型对检索到的内容“读不懂”,而非“搜不到”,具体表现为无法识别段落内部的主次关系以及段落之间的逻辑关联,导致答案质量低下[2][5][6][7] - Disco-RAG框架通过在检索和生成之间加入“读懂”环节,即对文档进行篇章结构解析,显著提升了模型对复杂信息的理解和组织能力,且全程无需训练[2][9][27] - Disco-RAG在多个权威基准测试中表现优异,尤其在长文档、歧义问答和科学摘要任务上全面领先现有方法,并证明了其部署灵活性和与模型微调的互补性[14][17][19][23][26] 传统RAG的痛点诊断 - 传统RAG将检索到的段落当作“散装零件”直接投喂给模型,抹平了段落内部的主次关系和段落间的逻辑脉络,模型看到的是“信息乱炖”[2] - 具体盲区包括:段落内部分不清结论与前提条件;段落之间无法识别支持、反驳等关联关系[5][6] - 以“补充维生素D能否预防流感”为例,模型会忽略段落A中“冬季+偏低人群”的关键限定条件,且无法识别段落A与段落B结论相悖,从而给出错误答案[3] Disco-RAG的解决方案 - 该框架通过三步让模型学会“读”文档,全程不改动模型参数[10][11] - **第一步:构建论证树**。利用LLM将段落拆解为最小语义单元,标记核心内容与辅助说明,并识别单元间关系(如因果、对比)[11] - **第二步:构建关系网**。对检索到的所有段落进行两两配对分析,预测它们之间的支持、反驳、补充等关系,形成有向图[11] - **第三步:生成提纲并作答**。综合问题、段落、论证树和关系网,先生成标明关键证据、叙述顺序及矛盾协调策略的“写作提纲”,再以此为指导生成最终答案[11] - 在维生素D案例中,该流程能明确标记限定条件、核心结论以及段落间的“对比”关系,从而生成有层次、有条件的分析性回答[13] 性能基准测试结果 - **长文档推理(Loong)**:在文档长度从1万到25万tokens的测试中,Disco-RAG优势随文档增长而扩大。在最长25万tokens档位,普通RAG几乎失效,而Disco-RAG仍能有效回答,整体表现甚至超过需要专门训练的方法[15]。例如,在Set 4(200K-250K Tokens)中,使用Llama-3.3-70B的Disco-RAG在核心指标上达到57.74,显著优于标准RAG的40.27和同期先进方法StructRAG的56.87[16] - **歧义问答(ASQA)**:Disco-RAG在核心指标上刷新最佳记录。使用Llama-3.3-70B时,EM+指标达42.0,RL+指标达42.3,DR Score+达32.8,均优于所列的各类先进方法[17][18] - **科学摘要(SciNews)**:在将学术论文改写为新闻摘要的任务中,Disco-RAG在四项指标中拿下三项第一。使用Llama-3.3-70B时,RL+指标达21.11,BERTScore+达65.67,SARI+达44.37,事实一致性(SummaC+)达69.48,排名第二[19][20] 技术有效性与鲁棒性验证 - 对照实验表明,论证树、关系网、提纲三个模块缺一不可,各自承担不同角色,移除任一模块性能均明显下滑[21] - 仅为普通RAG添加通用规划步骤(不含篇章结构)提升有限,证明Disco-RAG的大幅提升主要源于“论证树+关系网”的结构化表示,模型确实利用了文本逻辑结构[21] - 即使面对大量无关噪声内容或大幅调整段落切分粒度,Disco-RAG表现依然稳健,而普通RAG波动剧烈[21] 实际部署的灵活性与成本优势 - Disco-RAG的模块化设计允许使用不同大小的模型分别承担结构分析与最终生成任务[23] - 实验显示,使用小模型(Llama-3.1-8B)进行所有结构分析,仅在大模型(Llama-3.3-70B)进行最终生成,效果可接近全部使用70B模型的水平[24] - 全部使用8B小模型运行Disco-RAG,效果也远超使用70B大模型运行普通RAG,这意味着结构分析模块可“降配”部署以控制成本,同时保留核心性能收益[25] 与模型微调的协同效应 - 在SciNews任务上,不经过任何训练的Disco-RAG(RL+ 21.1, SummaC+ 69.5)其效果已经超过了经过微调的普通RAG(RL+ 20.3, SummaC+ 66.8)[26] - 将微调与Disco-RAG的篇章结构结合使用时,效果得到进一步提升(RL+ 23.3, SummaC+ 74.0),表明结构信息与微调带来的收益是互补的[26] - 这为实际应用提供了清晰路径:可先通过Disco-RAG免训练获得即时收益,再根据需要叠加微调以追求更优性能[26] 行业启示与应用前景 - 这项工作揭示了一个被长期忽视的事实:自然语言文本拥有自己的逻辑骨架(主次、因果、转折等),将这一骨架解析并交给模型能显著改变其信息理解和组织能力[27] - Disco-RAG的思路不仅适用于RAG场景,也可能为更广泛的多文档推理、长文本理解等任务提供新启发[27] - 对于正在进行RAG系统落地的团队而言,Disco-RAG提供了一个轻量、即插即用的增强方案[27]