长上下文窗口、Agent崛起，RAG已死？

RAG技术演进与行业观点 - 行业出现“RAG已死”的论调，Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制（如GPT-3.5的4K tokens）的行业标准解决方案，其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位，引发其是否过时的讨论 [5][6] RAG的进化：智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”，AI智能体成为更强大的RAG架构核心，超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段：从基础的Top-k检索，到引入轻量级agent的自动路由模式，再扩展到多个知识库的复合检索API，最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力，成为高级AI智能体不可或缺的“知识骨干”，简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科，其本质（为LLM提供外部知识）是永恒需求 [22][23][24] - 需要升级评估范式，传统搜索引擎基准（如BEIR）与RAG目标不符，新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力（如Promptriever）和采用无损压缩技术（如延迟交互模型ColBERT），小模型（150M参数）在特定任务上可超越大模型（7B参数） [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”：切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体（Agent）和长上下文窗口（如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens）被视为更优替代方案，采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下，RAG被“降级”为Agent工具箱中的一个组件，与代码解释器、API调用等工具并列，场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG（Naive RAG）已无法满足复杂需求，但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合：Agent驱动的工程化RAG适用于海量数据初筛，而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣，根据具体应用场景灵活组合，构建最高效可靠的解决方案 [52]