Workflow
检索增强生成(RAG)
icon
搜索文档
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡
机器之心· 2026-01-06 08:31
文章核心观点 - 卡内基梅隆大学的研究表明,在检索增强生成系统中,扩大检索语料规模可以有效提升系统性能,并且可以在一定程度上替代扩大生成模型参数所带来的收益,为在有限算力下提升RAG系统提供了更具性价比的路径[4][22] - 研究揭示了语料扩容带来的性能提升主要源于提高了答案证据被检索到的覆盖率,而非显著增强了模型利用证据的能力[15][19] - 研究指出,语料扩容的收益存在边际递减现象,尤其是在语料规模达到较高水平后,继续无上限扩容并不划算,需要结合成本进行精细的预算分配[4][13] 实验设计与方法 - 研究采用全因子设计,严格控制变量,仅让检索语料规模和生成模型规模变化,其余设置保持一致[8] - 检索语料使用ClueWeb22-A英文子集,总计包含约2.64亿真实网页文档,并随机均衡切分为12个分片,通过激活不同数量的分片来控制语料规模[9] - 生成端选用Qwen3模型家族的不同尺寸,覆盖从0.6B到14B的参数规模,并在三个开放域问答基准上进行评测[9] 关键发现:语料规模与模型规模的替代关系 - 实验结果显示明确的补偿效应:通过扩大检索语料,较小规模的模型可以达到甚至超过更大模型在较小语料下的表现[10] - 研究定义了“补偿阈值”,即小模型需要多少倍语料才能追平大模型在1个分片下的成绩。例如,在Natural Questions数据集上,0.6B模型需要约5倍语料才能追平1.7B模型在1个分片下的表现[11][12] - 这种追平趋势在TriviaQA与WebQuestions数据集上同样存在,表明语料扩容在多数设置下都能将性能缺口缩小一个甚至两个模型档位[12] 性能增长形态与工程启示 - 性能提升曲线呈现共同规律:从无检索到有检索的第一步带来最显著的提升,随后收益逐步下降,并在约5到6倍语料规模附近出现饱和趋势[13] - 对于工程实践,这意味着检索能力的从无到有带来最大增益,但在较高语料规模处继续无上限扩容的性价比不高[13] - 当推理资源受限时,优先考虑扩大检索语料与提升覆盖率,常常能让中等规模生成模型达到接近更大模型的表现[20] 性能提升的机制解释 - 语料扩容提升性能的核心机制是提高了检索到包含标准答案字符串的证据片段的概率,即提高了“黄金答案覆盖率”[16] - 研究定义了“上下文受益成功率”和“利用率”指标,实验显示,不同模型将可用证据转化为正确答案的效率整体相近且在不同语料规模下保持稳定[19] - 因此,语料扩容带来的关键收益主要体现在提高含答案证据进入上下文的概率,而非显著提升模型对既有上下文的利用能力[19][22]
系统学习Deep Research,这一篇综述就够了
机器之心· 2026-01-01 12:33
Deep Research (DR) 综述的核心观点 - 大模型应用正从对话与创意写作,走向解决开放、复杂的研究型问题,催生了Deep Research这一新方向,旨在超越传统RAG静态的“一次检索+一次生成”范式,以支撑多步推理与长期研究流程[2] - 来自山东大学、清华大学、CMU、UIUC、腾讯等机构的团队发布了目前最全面的深度研究智能体综述《Deep Research: A Systematic Survey》,系统性地提出了三阶段能力发展路径,并从系统视角梳理了关键组件及训练优化方法[2] Deep Research 的定义与能力演进路径 - DR并非具体模型或技术,而是一条从信息获取到完整科研流程的逐步演进能力路径[5] - **阶段1:Agentic Search**:模型具备主动搜索与多步信息获取能力,能根据中间结果动态调整查询策略,核心目标是持续找对关键信息[5] - **阶段2:Integrated Research**:模型能对多源证据进行理解、筛选和整合,最终生成逻辑连贯的报告[6] - **阶段3:Full-stack AI Scientist**:模型扩展到完整科研闭环,具备提出研究假设、设计执行实验、基于结果反思与修正的能力,强调自主性与长期目标驱动的科研能力[6] - 能力对比显示,从标准RAG到Full-stack AI Scientist,智能体的动作空间从Narrow变为Broad,推理视野从Single变为Long-horizon,工作流从Fixed变为Flexible,输出形式从Short Span发展为Academic Paper[8] Deep Research 的四大核心组件 - **查询规划**:负责决定下一步查询什么信息,将“如何提问”纳入推理过程,使模型能在多轮研究中动态调整路径,具体分为顺序规划、并行规划和树状规划三类策略[10][11] - **信息获取**:从三个维度归纳方法:1) 何时检索:根据当前不确定性与信息缺口动态判断,避免冗余或过早依赖外部信息;2) 检索什么:从Web或知识库检索多模态或纯文本信息;3) 如何过滤:通过相关性判断、一致性校验或证据聚合机制筛选整合噪声较高的检索结果[12][13][14] - **记忆管理**:作为支撑DR系统长期运行与持续推理的核心基础设施,提供状态延续和经验累积,过程拆解为记忆巩固、记忆索引、记忆更新与记忆遗忘四个相互关联的阶段[15] - **答案生成**:强调结论与证据的对应关系及论证过程的逻辑一致性,需要智能体显式整合多源证据与中间推理结果,使输出支持事实核验与过程回溯[17] Deep Research 系统的训练与优化方法 - **提示工程**:通过精心设计多步提示构建研究流程,引导模型执行规划、检索与生成等步骤,适合快速构建原型,但效果依赖提示设计且泛化能力有限[20] - **监督微调**:利用高质量推理轨迹对智能体进行监督微调,直观有效,但获取覆盖复杂研究行为的标注数据成本较高[21] - **智能体强化学习**:通过强化学习信号直接优化DR智能体在多步决策过程中的行为策略,无需复杂人工标注,主要分为两种做法[22] - **端到端优化**:联合优化查询规划、检索、信息整合与报告生成等多个环节,有助于协调模块,但面临奖励稀疏、训练不稳定及采样成本高的问题[26] - **优化特定模块**:仅对查询规划或调度等关键模块施加强化学习信号,降低训练难度,更易于在现有系统中落地[26] Deep Research 面临的核心挑战 - **内部知识与外部知识的协同**:研究型智能体需在自身参数化知识与外部检索信息之间做出动态权衡,决定何时依赖内部推理、何时调用搜索工具[24] - **训练算法的稳定性**:面向长线任务的训练依赖强化学习等方法,但优化过程容易出现策略退化或熵坍缩等问题,使智能体过早收敛到次优行为模式,限制其探索多样化推理路径[24] - **评估方法的构建**:如何合理评估研究型智能体仍是开放问题,综述系统梳理了现有benchmark,但构建可靠高效的评估方法仍有待探索,尤其在开放式任务中对report-level输出的全面评估[25][27] - 当前广泛采用的LLM-as-a-judge范式在实践中受顺序偏差、偏好hacking等问题影响,限制了其作为测评方法的可靠性[27] - **记忆模块的构建**:是DR系统中最具挑战性的部分之一,需在记忆容量、检索效率与信息可靠性之间取得平衡,并将记忆机制稳定融入端到端训练流程[28] 行业现状与未来展望 - Deep Research代表了智能体在能力、动作空间及应用边界上的一次转变:从单轮的答案生成,走向面向开放问题的深度研究[30] - 该方向目前仍处于早期阶段,未来重要问题是如何在开放环境中构建既具自主性、又具可信性的Deep Research智能体[30] - 相关综述将持续更新,以总结该领域的最新进展[30]
2025年AI大模型资料汇编
搜狐财经· 2025-12-24 18:45
文章核心观点 2025年AI大模型行业竞争焦点从单纯的能力竞赛转向可持续性比拼,行业在技术范式、市场格局、应用形态与全球治理四大维度发生深刻转变,共同重塑发展轨迹[1] 技术范式演进 - 训练范式发生关键拐点,从依赖主观反馈的RLHF全面转向客观可验证的RLVR,模型通过自我检验实现推理能力飞跃[1][27][28] - 混合专家架构强势回潮,以稀疏激活模式平衡参数规模与计算成本,追求极致性价比[1] - 多智能体自我博弈与合成数据微调成为常态,模型减少对人类标注数据的依赖[1][29] - 检索增强生成成为企业级应用标配,有效解决幻觉与知识时效性问题[1][61][63] - 模型能力呈现“锯齿化”结构,在数学、编程等形式化智力领域突飞猛进,但在常识推理上仍存短板[1][32][33][34] 市场格局变化 - 市场格局呈现集中化与民主化的双重张力,谷歌Gemini 3凭借自研TPU v5芯片与多模态优势,终结了OpenAI的长期领先地位[1][2][10][14] - 中国模型凭借成本效益实现弯道超车,市场向头部集中,Anthropic等顶尖初创企业获巨额融资,二三线玩家面临出清[1][2] - 开源浪潮形成制衡,阿里通义千问、01.ai Yi-34B等开源模型性能逼近闭源产品,中国厂商成为开源生态主力军[1][2][19] - 科技巨头加速构筑全栈生态闭环,通过芯片、模型、平台、应用的垂直整合形成护城河,竞争焦点转向生态控制权[1][2] 应用形态发展 - 应用形态从通用聊天助手进化为专用工具与自主智能体,深度嵌入编程、办公等专业流程,“AI原生应用层”崛起[1][2][53] - “氛围编程”重塑软件开发模式,开发者角色从编码者转向系统设计师与AI驯导师[1][2][57] - 智能体成为生态博弈核心,例如字节跳动豆包手机助手可实现跨应用复杂操作,引发与超级App的流量控制权之争[2][60] - 部署模式呈现“云+端协同”趋势,本地部署因隐私合规需求兴起,开源工具与硬件进步让大模型在个人手机和企业私有服务器上运行成为可能[2][67][68] 全球治理动态 - 全球治理进入差异化竞争阶段,欧盟《AI法案》以安全优先实施严格监管,美国侧重行业自律与国际主导,中国坚持发展与安全并举的审慎包容路径[3] - 全球统一规则难以达成但多边协作萌芽显现,监管竞赛背后是技术标准制定权的争夺[3] - AI安全暗战持续,对齐与越狱的攻防常态化,自动化对抗与长期安全机制建设提上日程[3] - 社会层面初步显现就业结构调整、教育模式变革等震荡,人与AI协作成为新趋势[3]
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 12:42
智能体记忆研究的核心观点 - 记忆是AI智能体实现从静态大语言模型到自适应智能体转变的核心能力,支撑长程推理、持续适应及与复杂环境的交互 [1][5] - 当前智能体记忆研究领域呈现碎片化,术语定义松散且传统分类法(如长/短期记忆)已不足以捕捉当代系统的多样性和动态性,亟需新的系统性框架进行统一 [1][6] - 该综述旨在通过“形式-功能-动态”三维视角,提供一个最新且全面的智能体记忆研究图景,并区分其与大型语言模型记忆、检索增强生成(RAG)等相关概念 [1][7] 智能体记忆的定义与范畴 - 智能体记忆被明确定义为促成AI智能体通过环境交互实现持续适应的关键能力,区别于静态大语言模型的参数化记忆 [5][7] - 其应用场景广泛,包括个性化聊天机器人、推荐系统、社会模拟及金融调查等领域,这些应用均依赖于智能体处理、存储和管理历史信息的能力 [5] - 从发展角度看,赋予智能体持续演化能力是AGI研究的核心目标,而这根本上依赖于其记忆能力 [5] 智能体记忆的形式(架构与表示) - 从形式视角,智能体记忆主要有三种实现方式:标记级记忆、参数化记忆和潜在记忆 [10][18] - 这些不同的架构形式是第3节讨论的重点,旨在解答“智能体记忆可以采取哪些架构或表示形式”这一关键问题 [7][19] 智能体记忆的功能(角色与目的) - 从功能视角,提出了超越时间分类的细粒度分类法,区分了三种功能类型:事实性记忆、经验性记忆和工作记忆 [10][18] - 事实性记忆记录智能体与用户及环境交互中获得的知识;经验性记忆通过执行任务逐步增强智能体解决问题的能力;工作记忆在单个任务实例中管理工作区信息 [7][19] - 第4节将详细阐述这些功能类型,以解答“为何需要智能体记忆以及它服务于哪些角色或目的” [7][19] 智能体记忆的动态性(生命周期与运作) - 从动态视角,分析了在智能体与环境交互过程中,记忆如何随时间被形成、检索和演化 [10][18] - 第5节将按记忆形成、检索和演化的顺序进行阐述,聚焦于智能体记忆的生命周期与运作动态 [7][19] 研究资源与新兴前沿 - 为支持实证研究和实际开发,汇编了关于代表性基准测试和开源记忆框架的全面总结 [2][12] - 阐明了数个新兴研究前沿,包括面向自动化的记忆设计、强化学习(RL)与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题 [2][12][20] - 这些方向在早期的分类方案中尚未得到充分体现,例如2025年出现的从过往经验中提炼可复用工具的记忆框架或基于记忆增强的测试时缩放方法 [6][16] 综述结构与贡献 - 综述结构包括:第2节形式化定义与概念厘清;第3、4、5节分别审视形式、功能和动态性;第6节总结基准与框架;第7节讨论未来方向;第8节总结 [9][21] - 主要贡献包括:提出了一个基于“形式-功能-动态”视角的最新多维度分类法;探讨了不同记忆形式与功能的适用性及相互作用;勾勒了未来研究方向;汇编了综合资源集以支持研究与开发 [8][20]
恒生电子助力国元证券打造智能知识中心 大模型赋能知识管理与高效应用
证券日报之声· 2025-12-11 21:38
核心观点 - 恒生电子助力国元证券成功上线智能知识中心,通过引入大模型与检索增强生成(RAG)等前沿技术,整合分散知识资源,构建统一、智能、可信的企业级知识中枢,旨在提升券商业务人员知识检索效率和业务场景问答精准度 [1] 项目背景与痛点 - 国元证券此前知识资产分散于多个独立业务系统中形成“信息孤岛”,员工知识检索需跨系统反复校验,合规核查依赖人工筛查,效率低下且易出现偏差 [1] 平台功能与技术架构 - 平台基于大模型和RAG技术,集知识汇聚、管理、应用与治理于一体,集中了11000余份内部文档,共计1.2亿余字,构建统一知识中枢并联动多个业务系统 [1] - 平台提供文档知识的分类展示、筛选、检索,并支持AI总结和AI单文档问答等功能 [2] - 核心“AI知道”提供基于部门库、群组库的问答能力,支持精准定位和溯源,并提供智能精答、原文直答、多库多轮检索问答和子任务拆解等多种问答模式 [2] - 项目创新构建了“问答体+知识库/群组穿透”双引擎知识服务模式,采用“一个知识底座+N个问答体”架构,实现“千人千面”的问答体 [3] - 项目构建了“可追溯、可干预、可评测”的AI问答治理闭环,通过“RAG+深度思考+拒答控制”三层保障及全链路监控等机制,形成质量优化飞轮 [3] 平台性能与效果 - 通用场景下,平台问答准确率可稳定维持在85%左右,细分业务场景下通过调优后可实现95%的准确率,首token响应时长在5秒左右 [2] - 通过治理闭环机制,问答准确率从初期的72%提升至90%左右(试点数据) [3] - 平台已在国元证券20多个部门使用,解决了长期知识管理痛点,实现了“降本、增效、控险”的建设目标 [3] 合规与安全管理 - 平台设计了精细化的权限管控体系,通过知识库授权和群组授权保障部门敏感信息隔离并支持有限范围内的跨部门知识共享 [2] - 所有上传至部门知识库的文档必须经审核流审批,确保知识源的合规性 [2] 行业意义与未来展望 - 项目精准契合国元证券以技术赋能业务、推动高质量发展的核心布局,为其未来的业务创新、风险管控和组织提效构筑了高质量的数字资产底座 [3] - 恒生电子将持续携手金融机构,探索AI技术在实际业务场景中的深度应用,推动金融行业数智化转型迈向更深层次、更广领域 [4]
迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合的巨大待探索空间
机器之心· 2025-12-02 17:18
文章核心观点 - 多模态检索增强生成(MM-RAG)是新兴技术领域,旨在将大模型的应用从文本扩展到图像、音频、视频、代码、表格、知识图谱、3D对象等多种模态的组合 [2] - 目前MM-RAG的研究和应用尚处于初级阶段,现有工作主要集中于文本和图像组合,其他模态组合存在大量研究空白 [2] - 由多所高校和研究机构联合发布的综述论文首次全面覆盖了几乎所有可能的输入-输出模态组合,为领域提供了系统性的分类框架和技术参考 [4][5] MM-RAG技术现状与潜力 - 论文揭示了MM-RAG领域庞大的潜在输入-输出模态组合空间,在54种潜在组合中仅有18种存在已有研究,研究覆盖率约为33% [5] - 许多极具应用价值的组合(如“文本+视频作为输入,生成视频作为输出”)仍属待开拓的蓝海领域 [5] - 作者构建了基于输入-输出模态组合的全新MM-RAG分类法,系统性组织了现有研究并展示了不同系统的核心技术组件 [6][7] MM-RAG系统工作流程 - MM-RAG系统工作流程可划分为四个关键阶段:预检索(数据组织和查询准备)、检索(从多模态知识库中查找信息)、增强(将多模态信息融入大模型)、生成(生成高质量多模态输出) [8][9][11][12][13][14] - 论文详细总结了每个阶段的常用方法,并讨论了针对不同模态的优化策略 [15] 技术指南与应用前景 - 该综述提供了构建MM-RAG系统的一站式指南,涵盖工作流、组件、训练、评估等核心技术 [17] - 指南内容包括训练策略(最大化检索和生成能力)、评估方法(指标和Benchmark)以及潜在应用与未来研究方向 [18] - 论文作者提供了持续更新的资源库,方便研究者追踪最新技术进展 [17]
构建LLM:每个AI项目都需要的知识图谱基础
36氪· 2025-11-13 08:49
文章核心观点 - 文章通过律师史蒂文·施瓦茨因使用ChatGPT进行法律研究而提交伪造案例的真实事件,揭示了通用大语言模型在专业领域应用中的根本性缺陷,并提出了将大语言模型与知识图谱相结合的混合架构作为构建可信赖人工智能系统的解决方案 [1][3][4][9][15][18][21] 大语言模型的局限性 - 律师施瓦茨提交了六个伪造的司法判决案例,这些案例包含伪造的引述和内部引用,实际上根本不存在 [3][4] - 施瓦茨承认他此前从未用过ChatGPT进行法律研究,因此并不知道其内容可能不实,误以为ChatGPT是一个超级搜索引擎 [4] - 大语言模型在处理需要权威来源的特定领域查询时可能惨败,例如法律判例、医疗规范、金融法规等,因为精确性至关重要,每一条引文都必须可验证 [5] - 大语言模型存在知识不透明、无法轻易更新、缺乏领域基础、不提供审计追踪等架构挑战 [7][8] - 据Gartner预测,到2027年,超过40%的智能体人工智能项目将因领域知识与投资回报率不匹配而被取消 [8] 知识图谱的优势 - 知识图谱是一种不断演进的图数据结构,由类型化的实体、属性和有意义的命名关系组成,针对特定领域构建 [10] - 知识体系建立在四大支柱之上:演进、语义、集成、学习 [10] - 知识图谱知识是可审计和可解释的,用户可以准确地追踪信息的来源,并对照权威来源进行验证 [12] 智能系统的部署方式 - 智能自主系统能够独立运行,在极少人为干预的情况下代表用户做出决策并执行操作 [13] - 智能顾问系统旨在辅助而非取代人类判断,提供决策支持、情境感知和用户交互,对于法律研究、医疗诊断、财务分析等关键应用至关重要 [13][14] 混合方法:LLM + 知识图谱 - 混合系统结合了知识图谱的结构化、可验证知识和LLM的自然语言处理能力,整体大于部分之和 [15] - 知识图谱提供基础:结构化的经过验证的知识、显式领域规则、审计追踪、动态更新无需模型重新训练 [15] - LLM提供接口:自然语言查询处理、从非结构化数据中自动提取实体、翻译复杂图查询、汇总结果 [15] - 混合系统可以处理自然语言查询,向知识库查询已验证信息,呈现结果并附上背景信息和指向实际来源的验证链接,标记不确定性 [18] - 行业研究表明,混合系统能够通过将LLM反应建立在可验证的事实之上来减轻幻觉,通过动态更新保持知识最新,通过透明信息路径实现可解释性,并通过编码专家知识提高特定领域准确性 [19][20] 构建可信赖人工智能系统的原则 - 部署人工智能的专业人士都肩负着把关责任,系统架构必须支持而非削弱这一责任 [21] - 人工智能在关键应用领域的未来取决于构建智能顾问系统,该系统需将知识图谱的结构化知识和可解释性与语言学习模型的自然语言理解和模式识别能力相结合 [21]
东方材料日本子公司发布天財Model-v1.1,千亿参数财税大模型实现“认知式AI”突破
全景网· 2025-10-31 10:29
文章核心观点 - 东方材料日本子公司发布天財Model-v1 1财税大模型 标志着财税AI从执行自动化迈入认知智能化新阶段 [1] - 该千亿参数模型通过融合多模态理解与检索增强生成等技术 在财税领域实现高准确率与强鲁棒性 展现出接近人类专家的认知能力 [1][2] - 垂直领域大模型技术成功落地财税行业 预示着大模型加专业知识成为推动产业智能化的关键路径 [4] 技术架构与性能 - 模型基于千亿级参数Transformer架构 并针对财税场景进行深度优化 [1] - 采用检索增强生成技术架构 确保每一条建议都具备法规依据与案例支持 克服大模型幻觉问题 [2] - 具备多模态理解能力 可同时处理图像、文本与表格数据 对复杂票据的识别准确率高达99.8% [2] - 系统支持32K tokens上下文长度 平均响应时间控制在2秒以内 每小时可处理1200张票据 [2] 专业知识库与训练数据 - 模型训练融合了海量财税专业语料 包括超过500万张日本真实财税票据图像及结构化数据 [1] - 训练数据涵盖100万组高质量财税问答对 以及跨越50年的日本税法与会计准则文本库 [1] - 知识库包含10万组以上真实企业业务案例与审计轨迹 为模型提供扎实的专业知识基础 [1] 应用场景与技术跃迁 - 模型实现三大技术跃迁:语义理解、情境推理和主动预警 能从识别跨越到决策 [2] - 可理解自然语言问题并关联相关法规 自动匹配适用准则进行会计分录 并主动提示潜在税务风险 [2] - 目前已实现与日本主流财务软件的API级对接 支持云端、私有化与混合部署 [3] 行业影响与未来规划 - 系统被评价为具备专业认知能力的AI会计师 代表垂直大模型在专业服务领域的成熟落地 [2][3] - 公司预计于2026年推出移动端APP与财务BP助手功能 并启动多国版本开发 [3] - 该产品的落地表明大模型加专业知识正成为推动产业智能化的关键技术路径 [4]
中国科学院碳足迹智能核算研究取得进展
环球网资讯· 2025-10-22 10:51
文章核心观点 - 中国科学院青岛生物能源与过程研究所开发出融合大型语言模型的智能碳核算解决方案Chat-LCA,旨在解决传统生命周期评价方法效率低、精度不足的瓶颈问题 [1][3] - Chat-LCA系统通过整合多项前沿AI技术,实现了碳核算从知识获取到报告生成的全流程自动化,显著提升了智能化水平和应用效率 [3][4] - 该系统经多行业验证展现出高准确性与高效性,可将耗时数周的分析任务压缩至数小时,并为实现“双碳”目标提供了可落地的技术工具 [4] 技术方案与创新 - 解决方案命名为Chat-LCA,其原创性体现在首次将检索增强生成、Text2SQL、思维链与代码链等前沿AI技术系统整合于LCA全流程 [3] - 系统构建了支持自然语言交互的一体化碳核算智能系统,有效打通了知识壁垒与数据孤岛 [3] - 系统实现了在“知识获取—数据检索—报告生成”全链条的深度融合 [3] 性能与效果验证 - 问答模块在跨十大行业的专业问题中BERTScore达0.85,Text2SQL模块在真实LCI数据库上的执行准确率达0.9692 [4] - 报告生成系统的填充准确率达0.9832,可读性评分8.42(满分10) [4] - 系统可将传统耗时数周的LCA分析任务压缩至数小时完成 [4] - 以锂硫电池碳足迹评估为例,系统自动识别出原料获取(47.2%)与生产阶段(31.3%)为碳排放热点,并提出清洁能源替代等精准减排建议 [4] 应用价值与影响 - 该方案大幅降低了碳核算的技术门槛,拓展了LCA方法在工业、政策等多场景的适用性 [4] - 为企业绿色决策提供了科学依据,为“双碳”目标的实现提供了可落地的技术支撑与决策工具 [4] - 研究成果发表在《Journal of Cleaner Production》上 [3]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 08:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]