检索增强生成(RAG)

搜索文档
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 11:43
技术突破 - 突破传统RAG技术局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解[1] - 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化信息转化为结构化知识网络[1] - 系统整合多模态文档解析、语义理解、知识建模和智能问答等核心能力,构建从原始文档到智能交互的完整自动化流程[2] 技术痛点与需求 - 传统RAG系统主要针对纯文本设计,无法有效处理图表、表格、公式等非文本内容[6] - 现有系统存在检索效果不理想、语义关联缺失、工作流复杂等问题[6] - 各行业迫切需要AI系统具备跨模态综合理解能力,能够同时解析文字、图像、表格和数学表达式[4] 系统架构与功能 - 采用端到端技术栈,包含文档解析、内容理解、知识构建和智能问答等关键功能[10] - 支持PDF、Office文档、图像等10多种主流文档格式[12] - 实现跨模态统一知识表示和检索方法,提供标准化API接口和灵活配置选项[10] 技术亮点 - 一站式多模态处理流程,实现从文档解析到智能问答的全流程自动化[11] - 全方位内容理解能力,包括视觉分析、语言理解和结构化数据处理[13] - 语义关联网络构建,自动识别文档中不同类型内容之间的关联关系[14] - 开放式组件生态架构,支持功能模块灵活调整和添加[15] 多模态理解能力 - 视觉内容分析:集成视觉大模型,自动生成图像描述,提取图表数据关系和视觉要素[19] - 表格智能解析:理解表格层次结构,识别表头关系和数据逻辑联系[20] - 数学公式理解:识别LaTeX格式表达式,分析变量含义和适用场景[20] - 扩展模态支持:支持流程图、代码片段、地理信息等专业内容识别[20] 知识图谱构建 - 将多模态内容统一建模为结构化知识图谱,突破信息孤岛问题[23] - 实体化建模:将异构内容统一抽象为知识实体,保留完整信息[24] - 智能关系构建:自动识别段落间逻辑关系和图文间说明关系[24] - 高效存储索引:建立图谱数据库和向量数据库双重存储机制[24] 检索机制 - 采用双层次检索问答机制,结合图谱检索和向量检索优势[26] - 分层提取细粒度关键词和概念级关键词,精准理解复杂问题[27] - 混合检索方式,通过图谱结构快速找到相关实体节点[27] 部署与应用 - 提供PyPI和源码两种安装方式,支持快速部署[29] - 模块化架构设计,支持一键式端到端处理和精细化手动构建两种使用方式[30] - 全流程自动化,从文档上传到智能问答无需人工干预[34] - 支持精确控制处理流程和定制化功能扩展[35] 未来方向 - 改进系统推理能力,处理跨模态信息深层关联[37] - 探索学术论文图表解析、财务报表数据提取、工程图纸识别等应用场景[37] - 作为构建智能Agent的基础技术,为AI应用提供多模态处理能力[37]
卡内基梅隆大学团队:如何全面检测RAG系统鲁棒性?
搜狐财经· 2025-06-08 10:53
RAG系统鲁棒性研究 - 卡内基梅隆大学与亚马逊团队提出RARE框架,从查询扰动、文档扰动和真实世界检索扰动三方面全面评估RAG系统鲁棒性 [3][5][6] - 当前RAG评估方法依赖静态数据集,偏向依赖记忆而非检索能力的模型,导致评估结果过于乐观 [2] - RARE框架包含三大组件:RARE-Met(评估指标)、RARE-Get(数据生成管道)、RARE-Set(专业领域数据集) [3][7][10] RARE-Met评估体系 - 定义鲁棒RAG系统的两大能力:内部知识稳定性与外部检索依赖性 [5] - 引入三类扰动测试:查询扰动(字符/词级错误、语法变化)、文档扰动(词汇/答案相关性变化)、真实世界检索扰动 [5][6] - 计算四类鲁棒性指标:总体鲁棒性、查询鲁棒性、文档鲁棒性、真实世界检索鲁棒性 [6] RARE-Get数据生成技术 - 全自动四阶段管道:构建真实文本块→知识图谱提取→查询模式识别→查询生成与质检 [8] - 利用GPT-4.1提取结构化三元组,E5-Mistral-7B-Instruct标准化语义关系 [8] - 支持生成单跳和三种多跳查询模式(链式、星形、反星形),质检阈值设定为3/5分以上 [8][9] RARE-Set专业数据集 - 覆盖金融(SEC 10-k文件)、经济(经合组织调查)、政策(HUD报告)三大领域 [10] - 包含48,322个时间敏感问题,其中金融文档优先提取绩效指标和财务事件关系 [4][10] - 数据规模:150份SEC文件、114份经济调查、214份政策报告,支持动态扩展 [10][11] 实验关键发现 - 文档扰动对系统影响最大(所有类型扰动均显著降低性能),查询扰动中词级错误影响最突出 [16][17] - 模型鲁棒性不完全依赖参数规模:Qwen3-14B优于Qwen3-32B,GPT-4.1-nano超越GPT-4.1-mini [13][17] - 领域差异显著:金融领域表现最佳(标准化数据),经济领域最差(复杂因果关系) [14][15][17] - 多跳查询鲁棒性普遍低于单跳查询,小模型差距更明显 [15][17]
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
作者 | George Panagiotopoulos 译者 | 明知山 策划 | 丁晓昀 我们的背景 作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商,我们拥有丰富且极具创新性的代码库,并通过战略性收购不断扩大业务。多年来,我们 一直将自己定位为行业的创新者,但创新的迅猛步伐也为我们带来了在庞大产品线中保持文档一致性与时效性的挑战。 虽然我们代码库的部分模块拥有坚实且管理得当的文档,但仍有部分模块存在文档不清晰或内容过时的问题,这导致我们的销售工程师和客户架构师很难 找到所需的信息。此外,我们的领域专家在各自的专业领域拥有深厚的知识和丰富的经验,但这些宝贵的专业知识往往分散且孤立,难以被系统地整合和 获取。 此前,我们曾尝试通过知识共享计划和培训项目来解决这一问题,但由于文档分散和专业知识孤立,这些努力的效果并不理想。我们还尝试引入基于静态 预定义问题和答案数据库的事实查找工具。然而,这些工具在使用过程中面临一个重大挑战——缺乏上下文信息。通常情况下,如果问题本身或其上下文 (或两者)稍有不同,针对特定问题在特定上下文中的答案就难以复用。为了克服这些获取准确技术信息的障碍,我几个月前决定探索使用 ...
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 11:50
GPT-5整合计划 - 下一代基础模型GPT-5计划整合Codex、Operator、Deep Research和Memory等工具,减少模型切换 [2][11] - 核心目标是提升现有模型能力,使其成为多功能助手而非仅提供建议 [10] Codex项目发展 - Codex最初是工程师的业余项目,因内部工作流未充分利用模型而启动 [5] - 内部使用Codex后编程效率提升约3倍,代码和功能交付量显著增加 [5][17] - 团队探索按需付费等灵活定价方案,未来可能推出o3-pro或codex-1-pro版本 [5] 技术实现细节 - Codex CLI工具采用TypeScript编写,因开发者熟悉且适合UI开发,未来将支持多语言扩展 [8] - 云端运行Agent可实现并行化和沙盒化,保障代码安全执行 [9] - 模型利用容器运行时加载的GitHub仓库等静态信息,未来可能结合RAG技术动态引用外部知识库 [15] 效率提升与行业影响 - Codex通过生成多版本代码并筛选最优解,改变传统"氛围编码"范式 [10] - 与良好软件工程实践结合后,开发效率提升显著,测试流程和代码结构优化成为关键 [17] - 未来10年愿景是实现软件需求到可运行版本的高效可靠转化 [18] 开发者生态策略 - Codex定位为辅助工具而非替代品,帮助初级开发者降低学习门槛 [19] - 计划面向Plus/Pro用户推出免费API积分以推广Codex CLI使用 [20] - 官方发布《Codex上手指南》,涵盖GitHub连接、任务提交及提示词技巧等实操内容 [24][25] 技术研究方法 - 采用强化学习提升模型编码能力、代码风格及报告准确性 [15][16] - 团队对强化学习在LLM和编码领域的应用前景持乐观态度 [16]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
2024年伊始,我们还在为大模型的"百亿参数竞赛"惊叹,转眼间,"小而强大"的多模态架构已如雨后春笋般涌现。 从Meta Chameleon到Qwen2.5-Omni,从DeepSeek Janus-Pro再到Gemma 3,新一代模型不仅参数更小、推理更强,还涌现出如多模态推理、智能体能力、长视频理解等 突破性进展。与此同时,"多模态检索增强生成(RAG)" "多模态智能体"等全新范式也初具雏形。 每一次模型发布、每一个技术节点,都在不断刷新我们对"视觉+语言"这一领域可能性的想象空间。 Hugging Face团队回顾并解析了过去一年视觉语言模型领域的关键事件与最新趋势: 这一年最值得关注的关键进展包括: 整体来看,过去一年视觉语言模型领域主要呈现出如下发展趋势: 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,无论你关心的是模型结构的突破、能力的进阶,还是新基准的建立和实际落地的工具,这文章都将为你提供一个不 错的起点。 01 新模型趋势 在本节中,我们将探讨新型 VLM。虽然有些是全新的,但其他则是先前研究的改进版本。 任意到任意 (Any-to-any) 模型 任意到任意模型,顾名思义,是 ...
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 12:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
喜报!南方财经金融理财智能大模型算法通过国家网信办备案
21世纪经济报道· 2025-03-14 22:24
文章核心观点 2025年3月12日南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过国家互联网信息办公室备案,该算法集成多种前沿技术,南财理财GPT——南小财能为用户提供智能便捷理财服务,拥有五大功能 [2][3] 分组1:算法备案情况 - 2025年3月12日国家互联网信息办公室发布第十批境内深度合成服务算法备案信息,南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过备案 [2] - 国家网信办备案审核严苛全面,备案通过意味着企业技术能力、数据安全、模型合规性达一定标准,是AI大模型商业化落地“通行证” [2] 分组2:算法及模型介绍 - 南方财经金融理财智能大模型算法集成大模型技术、自然语言处理、检索增强生成、强化学习训练等多种前沿技术,为用户提供智能便捷理财服务体验 [3] - 南财理财GPT——南小财是专注财富管理领域的智能AI金融模型,在南财理财通自主构建的银行理财数据库基础上,融合先进大模型训练技术打造而成,用户与智能助手实时对话可获取理财投资信息、市场行情分析和产品信息 [3][4] 分组3:南小财功能 - 提供智能实时对话交流,凭借前沿自然语言处理技术精准捕捉领会用户疑问需求并给出智能准确回答 [5] - 提供理财投资参考信息,从海量金融数据和市场资讯中评估潜在投资风险,依据用户风险承受能力和投资偏好提供个性化理财投资策略建议 [5] - 实时分析市场行情,凭借实时数据接入与深度多维分析能力捕捉市场态势,前瞻性洞察市场风险 [5] - 提供理财排行榜单,通过接入南财理财通银行理财数据库,综合多维度分析与评价对理财产品分类排名 [5] - 实时提供政策资讯,凭借政策敏感性和广泛数据采集网络追踪汇聚财经政策动向与行业资讯,对政策信息深度剖析与速递解读 [6]
最新!2025医疗AI应用趋势全解析
思宇MedTech· 2025-02-13 16:11
生成式AI在医疗领域的应用趋势 - 生成式AI已成为AI的代名词,大型语言模型(LLMs)及相关聊天机器人是当前主要表现形式 [1] - 医疗领域正积极探索AI在改善临床及管理工作流程方面的潜力,预计2025年医疗机构对AI项目的风险容忍度将提高 [2] - 2025年医疗机构将更谨慎选择能提升效率或实现成本节约的AI解决方案 [2] 环境聆听AI技术 - 基于机器学习的音频解决方案,通过语音识别实时捕捉并分析医患对话内容 [6] - 应用过程包括实时聆听与分析、信息提取与整理、满足临床需求三个步骤 [8] - 微软子公司Nuance推出的DAX Express应用GPT-4技术,可自动草拟临床笔记并输入电子健康记录系统 [9] - DAX Express已实现减少70%医生疲劳感、提高放射科医生效率1.5倍、提高52%随访依从性等成果 [10] 检索增强生成(RAG)技术 - 结合检索和生成技术的AI框架,通过外部数据库检索信息输入LLMs生成更准确回答 [12] - 应用场景包括AI辅助诊断、个性化医疗优化、临床决策支持和自动化医疗文档生成 [12] 视觉技术辅助患者护理 - 通过病房摄像头、传感器和麦克风实时收集患者生理和行为数据 [14] - Care.ai公司技术可检测患者翻身动作,减少护理负担并避免患者不适 [15] - 部分摄像头可检测患者起身动作,及时提醒医护人员防止跌倒风险 [16] - 史赛克公司2024年8月宣布收购Care.ai以增强医疗IT产品和无线设备组合 [18] 量子计算推动疗法发现 - IBM与克利夫兰诊所合作推出首台医疗研究专用量子计算机 [20] - 已有52个研究项目借助高性能计算技术开展,合作发表多篇蛋白质结构预测研究论文 [21][22] - 克利夫兰诊所与IBM、哈特里中心合作利用量子计算分析数据集预测癫痫患者手术反应 [24] - AI技术已应用于增强成像领域,助力乳腺癌等癌症检测及脓毒症风险预测 [27] AI加速药物发现 - AI用于筛选具有特定物理、化学或治疗特性的候选分子 [30] - 量子计算机分析候选分子动力学特性,评估其作为药物的适用性 [32] - 量子计算结果反馈AI模型增强训练数据,形成研发闭环加速药物发现 [33]