检索增强生成(RAG)
搜索文档
构建LLM:每个AI项目都需要的知识图谱基础
36氪· 2025-11-13 08:49
文章核心观点 - 文章通过律师史蒂文·施瓦茨因使用ChatGPT进行法律研究而提交伪造案例的真实事件,揭示了通用大语言模型在专业领域应用中的根本性缺陷,并提出了将大语言模型与知识图谱相结合的混合架构作为构建可信赖人工智能系统的解决方案 [1][3][4][9][15][18][21] 大语言模型的局限性 - 律师施瓦茨提交了六个伪造的司法判决案例,这些案例包含伪造的引述和内部引用,实际上根本不存在 [3][4] - 施瓦茨承认他此前从未用过ChatGPT进行法律研究,因此并不知道其内容可能不实,误以为ChatGPT是一个超级搜索引擎 [4] - 大语言模型在处理需要权威来源的特定领域查询时可能惨败,例如法律判例、医疗规范、金融法规等,因为精确性至关重要,每一条引文都必须可验证 [5] - 大语言模型存在知识不透明、无法轻易更新、缺乏领域基础、不提供审计追踪等架构挑战 [7][8] - 据Gartner预测,到2027年,超过40%的智能体人工智能项目将因领域知识与投资回报率不匹配而被取消 [8] 知识图谱的优势 - 知识图谱是一种不断演进的图数据结构,由类型化的实体、属性和有意义的命名关系组成,针对特定领域构建 [10] - 知识体系建立在四大支柱之上:演进、语义、集成、学习 [10] - 知识图谱知识是可审计和可解释的,用户可以准确地追踪信息的来源,并对照权威来源进行验证 [12] 智能系统的部署方式 - 智能自主系统能够独立运行,在极少人为干预的情况下代表用户做出决策并执行操作 [13] - 智能顾问系统旨在辅助而非取代人类判断,提供决策支持、情境感知和用户交互,对于法律研究、医疗诊断、财务分析等关键应用至关重要 [13][14] 混合方法:LLM + 知识图谱 - 混合系统结合了知识图谱的结构化、可验证知识和LLM的自然语言处理能力,整体大于部分之和 [15] - 知识图谱提供基础:结构化的经过验证的知识、显式领域规则、审计追踪、动态更新无需模型重新训练 [15] - LLM提供接口:自然语言查询处理、从非结构化数据中自动提取实体、翻译复杂图查询、汇总结果 [15] - 混合系统可以处理自然语言查询,向知识库查询已验证信息,呈现结果并附上背景信息和指向实际来源的验证链接,标记不确定性 [18] - 行业研究表明,混合系统能够通过将LLM反应建立在可验证的事实之上来减轻幻觉,通过动态更新保持知识最新,通过透明信息路径实现可解释性,并通过编码专家知识提高特定领域准确性 [19][20] 构建可信赖人工智能系统的原则 - 部署人工智能的专业人士都肩负着把关责任,系统架构必须支持而非削弱这一责任 [21] - 人工智能在关键应用领域的未来取决于构建智能顾问系统,该系统需将知识图谱的结构化知识和可解释性与语言学习模型的自然语言理解和模式识别能力相结合 [21]
东方材料日本子公司发布天財Model-v1.1,千亿参数财税大模型实现“认知式AI”突破
全景网· 2025-10-31 10:29
文章核心观点 - 东方材料日本子公司发布天財Model-v1 1财税大模型 标志着财税AI从执行自动化迈入认知智能化新阶段 [1] - 该千亿参数模型通过融合多模态理解与检索增强生成等技术 在财税领域实现高准确率与强鲁棒性 展现出接近人类专家的认知能力 [1][2] - 垂直领域大模型技术成功落地财税行业 预示着大模型加专业知识成为推动产业智能化的关键路径 [4] 技术架构与性能 - 模型基于千亿级参数Transformer架构 并针对财税场景进行深度优化 [1] - 采用检索增强生成技术架构 确保每一条建议都具备法规依据与案例支持 克服大模型幻觉问题 [2] - 具备多模态理解能力 可同时处理图像、文本与表格数据 对复杂票据的识别准确率高达99.8% [2] - 系统支持32K tokens上下文长度 平均响应时间控制在2秒以内 每小时可处理1200张票据 [2] 专业知识库与训练数据 - 模型训练融合了海量财税专业语料 包括超过500万张日本真实财税票据图像及结构化数据 [1] - 训练数据涵盖100万组高质量财税问答对 以及跨越50年的日本税法与会计准则文本库 [1] - 知识库包含10万组以上真实企业业务案例与审计轨迹 为模型提供扎实的专业知识基础 [1] 应用场景与技术跃迁 - 模型实现三大技术跃迁:语义理解、情境推理和主动预警 能从识别跨越到决策 [2] - 可理解自然语言问题并关联相关法规 自动匹配适用准则进行会计分录 并主动提示潜在税务风险 [2] - 目前已实现与日本主流财务软件的API级对接 支持云端、私有化与混合部署 [3] 行业影响与未来规划 - 系统被评价为具备专业认知能力的AI会计师 代表垂直大模型在专业服务领域的成熟落地 [2][3] - 公司预计于2026年推出移动端APP与财务BP助手功能 并启动多国版本开发 [3] - 该产品的落地表明大模型加专业知识正成为推动产业智能化的关键技术路径 [4]
中国科学院碳足迹智能核算研究取得进展
环球网资讯· 2025-10-22 10:51
文章核心观点 - 中国科学院青岛生物能源与过程研究所开发出融合大型语言模型的智能碳核算解决方案Chat-LCA,旨在解决传统生命周期评价方法效率低、精度不足的瓶颈问题 [1][3] - Chat-LCA系统通过整合多项前沿AI技术,实现了碳核算从知识获取到报告生成的全流程自动化,显著提升了智能化水平和应用效率 [3][4] - 该系统经多行业验证展现出高准确性与高效性,可将耗时数周的分析任务压缩至数小时,并为实现“双碳”目标提供了可落地的技术工具 [4] 技术方案与创新 - 解决方案命名为Chat-LCA,其原创性体现在首次将检索增强生成、Text2SQL、思维链与代码链等前沿AI技术系统整合于LCA全流程 [3] - 系统构建了支持自然语言交互的一体化碳核算智能系统,有效打通了知识壁垒与数据孤岛 [3] - 系统实现了在“知识获取—数据检索—报告生成”全链条的深度融合 [3] 性能与效果验证 - 问答模块在跨十大行业的专业问题中BERTScore达0.85,Text2SQL模块在真实LCI数据库上的执行准确率达0.9692 [4] - 报告生成系统的填充准确率达0.9832,可读性评分8.42(满分10) [4] - 系统可将传统耗时数周的LCA分析任务压缩至数小时完成 [4] - 以锂硫电池碳足迹评估为例,系统自动识别出原料获取(47.2%)与生产阶段(31.3%)为碳排放热点,并提出清洁能源替代等精准减排建议 [4] 应用价值与影响 - 该方案大幅降低了碳核算的技术门槛,拓展了LCA方法在工业、政策等多场景的适用性 [4] - 为企业绿色决策提供了科学依据,为“双碳”目标的实现提供了可落地的技术支撑与决策工具 [4] - 研究成果发表在《Journal of Cleaner Production》上 [3]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 08:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]
Qwen3-Max-Preview 上线,官方称系通义千问系列最强大的语言模型
搜狐财经· 2025-09-06 18:03
产品发布与定位 - 公司推出最新语言模型Qwen-3-Max-Preview 该模型是通义千问系列中最强大的语言模型[1] - 模型基于Qwen3系列更新 相比2025年1月版本在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进[1][3] - 在数学、编码、逻辑和科学任务中提供更高准确性 更可靠遵循中英文复杂指令 减少幻觉现象[1][3] 技术特性与性能 - 支持超过100种语言 具有更强翻译和常识推理能力[1][3] - 针对检索增强生成RAG和工具调用进行优化 但不包含专门"思考"模式[1][3] - 支持256000上下文长度 最大输出长度为32800 tokens[5] 商业化定价 - 输入token定价为每百万tokens 120美元 按现汇率约合86元人民币[2] - 输出token定价为每百万tokens 600美元 按现汇率约合428元人民币[2] - 根据token长度分段计价:输入超过128K部分每百万tokens 300美元 输出超过128K部分每百万tokens 1500美元[5] 服务提供商与性能 - 阿里云国际作为主要服务提供商 在新加坡节点延迟为068秒[5] - 支持缓存读写功能 读取价格每百万tokens 240美元至600美元[5]
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 18:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 16:33
AIGC 2.0阶段:检索增强生成 - 行业进入AIGC 2.0阶段,从单纯依赖模型训练转向整合第三方权威信息以提升内容准确性、时效性和专业性 [6] - 技术层面称为"检索增强生成"(RAG),结合语言生成模型与信息检索技术,国内大模型厂商已普遍增加该功能 [6] - 典型案例包括亚马逊与《纽约时报》、赫斯特、康泰纳仕等传媒集团合作,OpenAI与《华盛顿邮报》及20多家出版商合作 [3][6] 检索增强生成的崛起原因 - 解决传统大模型"模型幻觉"和"时效断层"两大缺陷,如ChatGPT编造虚假信息导致诽谤诉讼 [8][9] - 无需重新训练模型参数,通过实时外部数据提供准确答案,类似开卷考试模式 [10] - 运行过程分为数据检索收集和内容整合展示两个阶段,涉及海量版权作品利用 [11] 现实版权纠纷案例 - 美国首例RAG版权诉讼:道琼斯和纽约邮报控股诉Perplexity AI,指控其爬取数十万篇付费文章 [14] - 14家全球头部新闻出版商联合起诉加拿大Cohere公司,指控其实时抓取并输出完整原文 [14] - 欧盟法院受理首起生成式AI版权案:匈牙利新闻商Like诉谷歌Gemini侵犯邻接权 [14] - 国内知网与某AI检索平台纠纷,涉及学术文献使用争议 [14] 作品收集涉及的版权问题 - 数据检索阶段可能涉及复制权侵权,分为长期复制和临时复制两种情形 [17] - 构建检索增强数据库时的向量化处理可能构成长期复制,如Perplexity AI案中原告指控 [17] - 实时检索场景下若仅临时保存内容,可能适用文本与数据挖掘例外规则 [17] 技术保护措施问题 - 绕过IP限制或破解动态加载可能违反著作权法"技术措施"规定 [19] - 技术措施分为接触控制措施(如付费墙)和利用控制措施,规避前者构成违法 [20] - 美国《数字千年版权法》第1201条对技术措施提供双重保护体系 [20] 作品利用涉及的侵权问题 - 内容整合展示阶段可能构成直接侵权(复制权、改编权、信息网络传播权)或间接侵权 [22] - 直接侵权认定参考标准:未形成新作品属复制行为,形成新作品属改编行为 [22] - 间接侵权情形包括标注盗版来源扩大传播,或用户后续侵权传播中模型厂商存在过错 [23] 合理使用之争 - 数据检索阶段合理使用认定关键在"市场替代性",盗版内容构建知识库不构成合理使用 [26][27] - 日本区分"非欣赏性利用"和"轻微利用",欧盟要求遵守技术措施作为合理使用前提 [27][28] - 内容展示阶段合理使用核心在于复制比例和注明来源,各国标准不一 [28] - 美国版权局认为提供节略版本而非超链接不太可能构成合理使用 [28]
万字长文!RAG实战全解析:一年探索之路
自动驾驶之心· 2025-08-07 17:52
背景介绍 - RAG(检索增强生成)方法结合了检索模型和生成模型的能力,以提高生成文本的质量和相关性 [1] - 该方法由Meta在2020年提出,让语言模型能够获取内化知识之外的信息,并以更准确的方式回答问题 [1] - 在大模型时代,RAG用于解决幻觉问题、知识时效问题和超长文本问题等大模型本身的制约或不足 [1] RAG的挑战 - 主要面临三个方面的挑战:检索质量、增强过程和生成质量 [2] - 检索质量方面存在语义歧义、用户输入变复杂、文档切分和多模内容提取等挑战 [5] - 增强过程面临上下文集成、冗余和重复、排名和优先级等挑战 [5] - 生成质量方面存在过度依赖检索内容、无关性、毒性或偏见等问题 [5] 整体架构 产品架构 - 包含模型层、离线理解层、在线问答层和场景层四层 [11] - 模型层支持自研序列猴子、开源大模型和第三方模型,并优化跨语言Embedding模型 [11] - 离线理解层包括智能知识库和搜索增强模块,负责非结构化文本处理和检索精准度 [11] - 在线问答层支持多文档、多轮次、多模态及安全性与拒识等功能 [11] - 场景层针对不同行业特点预制多种场景类角色 [11] 技术架构 - 分为query理解、检索模型和生成模型三个主要组成部分 [10] - query理解模块包括query改写、扩写和意图识别等,旨在提高召回率 [12] - 检索模型从文档集或知识库中检索相关信息,使用信息检索或语义搜索技术 [12] - 生成模型根据Prompt或上下文生成新内容,包括chat系统和Prompt优化等 [13] Query理解 - 引入query理解模块解决用户query措辞不利于检索和生成结构化查询的问题 [14] - 意图识别模块利用LLM实现决策功能,可应用于选择器模块或查询引擎 [15] - query改写模块利用LLM重新措辞用户query,提高检索效果 [16] - HyDE技术生成假设答案并转换为嵌入,从数据库中检索最接近的实际文档 [17] - query扩写模块将复杂问题拆解为子问题,采用分而治之的方法处理 [22] - Step-Back Prompting通过抽象和推理两步处理复杂任务 [23] - CoVe技术通过验证和完善回答提高大型语言模型答案的可靠性 [25] - RAG-Fusion生成多个query并行执行搜索,使用倒数排名融合重新排序 [27] - ReAct将复杂查询分解成更简单的子查询,结合思维链提示和Action计划生成 [29][31] - query重构模块通过一次请求实现改写、拆解和拓展用户输入 [32] 检索模型 挑战 - 依赖于Embedding模型的向量化是否准确 [33] - 相关信息出现在输入上下文开头或结尾时性能最高,中间性能明显下降 [34] 架构 - 包括文档加载器、文本转换器、文本嵌入模型、向量数据库和索引等组件 [35][37] 文档加载器 - 从配置源加载文档数据,支持懒加载和多种来源如txt文件、网页和YouTube视频 [38] 文本转换器 - 将大型文档分割成较小块,适应模型上下文窗口 [39] - 递归分割文本保持相关文本片段在一起 [40] - 常见类型包括HTML、Markdown、Code、Token和Character等 [43] - 使用Chunkviz工具评估文本转换器工作情况 [44] 文本嵌入模型 - 创建文本的向量表示,捕捉语义并支持语义搜索 [45] - 应具备跨语种检索、长原文和短摘要关联、不同表述相同语义关联等能力 [45] 向量数据库 - 支持嵌入式的高效存储和搜索,检索与嵌入查询最相似的嵌入向量 [47] 索引 - 摘要索引将节点存储为顺序链,支持顺序遍历或基于关键词过滤 [51] - 树索引构建层级树状结构,父节点是子节点的摘要 [53] - 关键词表索引提取关键词并构建多对多映射 [55] - 向量索引利用文本嵌入模型将文本块映射成向量并存储在向量数据库中 [57] 排序和后处理 - 基于相似度分数、关键词、LLM重新排序或时间进行过滤和排序 [59] 生成模型 - 回复生成策略包括依次结合相关文本块修正回复或在Prompt中填充多个文本块 [66] - prompt拼接策略包括字符串提示和聊天提示 [61] - 字符串提示连接模板,聊天提示由消息列表组成 [62][63] 插件 - 基于混合演示检索的上下文学习方法融合文本检索和语义检索进行多路召回 [64] - 检索模块包括文本检索和语义检索,分别采用BM25和双塔模型 [70] - 重排模块使用倒序排序融合算法和两端填充排序策略 [71] - 生成模块设计prompt组装模块,融入长期和短期对话记录 [72] 引用或归因生成 - 归因让模型生成内容与参考信息对齐,提供证据来源确保信息准确性 [73] - 模型生成方法直接让模型生成归因信息,依赖模型能力 [75] - 动态计算方法在流式生成时匹配语义单元和参考源 [76] 评估 - Faithfulness评测生成的回答是否忠实于contexts,避免幻觉 [79] - Answer Relevance评测生成的答案是否解决实际问题 [79] - Context Relevance评测检索的上下文是否重点突出且少含无关信息 [79] - RGB基准研究RAG对大型语言模型的影响,分析噪声鲁棒性、拒答等能力 [77] - RAGAS框架对RAG pipeline进行无参考评估,考虑检索系统和LLM能力 [81] - LlamaIndex提供衡量生成结果质量和检索质量的模块 [81] 总结 - RAG技术需要不断实践和研究才能打磨出符合企业应用的精品 [82] - 本文总结了过去一年在RAG实践的关键模块,属于大纲式技术普及文章 [82]
忘掉《Her》吧,《记忆碎片》才是 LLM Agent 的必修课
Founder Park· 2025-07-29 16:05
行业趋势演变 - AI行业叙事从Chatbot(聊天机器人)转向Agent(智能体)成为主流 讨论焦点从"意图识别"和"多轮对话"变为"任务分解"、"工具调用"和"自主规划" 行业热度堪比2016年移动互联网爆发期 [4] - 电影《Her》定义了Chatbot范式的终极形态 而《记忆碎片》的主角莱纳德被视为Agent的完美隐喻 展示系统如何在信息不完整环境下为目标思考与行动 [5] Agent系统架构 - 上下文工程是围绕LLM有限注意力窗口设计的信息管理技术栈 目标是为每个决策点提供恰到好处的信息 决定Agent成败 [5] - 莱纳德的记忆系统对应LLM三大特征:长期记忆如同训练数据(静态知识库) 短期记忆如同上下文窗口(15分钟记忆限制) 行动驱动类似Agent任务导向 [9] 上下文工程三大支柱 外部知识管理 - 拍立得照片系统对应RAG技术 实现知识管理闭环:选择性记录任务关键信息 而非存储所有数据 避免检索时信息过载 [17][20] - 完整流程包括信息采集固化(拍照)、上下文标注(背面笔记)、按需调用(匹配检索) 体现RAG核心价值 [23] 上下文提炼结构化 - 将信息从照片升级到纹身 代表信息提炼压缩过程 只保留经过验证的核心断言(如"事实5") 并物理结构化确保读取优先级 [22][29] - Agent需成为信息炼金术士 对冗长信息进行压缩总结 在有限Token预算内最大化信息密度 避免"大海捞针"困境 [25] 分层记忆管理 - 三层架构:核心任务层(不可变纹身)、情景工作层(可读写照片)、瞬时处理层(易失性大脑记忆) 实现高效记忆调度 [30] - 需明确定义信息层级 区分宪法级指令、任务日志和临时缓存 防止Agent迷失在海量操作日志中 [28] Agent系统风险 - 上下文投毒风险:外部恶意输入可能导致Agent将错误信息当作真理输出 呈现"垃圾进真理出"现象 [32] - 自我强化认知牢笼:Agent在多步任务中可能将前序错误结论当作事实 缺乏独立审查机制导致偏差放大 [33][34] 系统优化方向 - 缺失反思模块是当前Agent核心缺陷 需建立验证机制比对行动结果与预期差距 生成误差报告指导后续行动 [35] - 构建可靠行动系统比单纯追求自主性更重要 需防止创造高效但永不怀疑的"莱纳德军队" [36]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]