检索增强生成(RAG)技术

搜索文档
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 11:43
技术突破 - 突破传统RAG技术局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解[1] - 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化信息转化为结构化知识网络[1] - 系统整合多模态文档解析、语义理解、知识建模和智能问答等核心能力,构建从原始文档到智能交互的完整自动化流程[2] 技术痛点与需求 - 传统RAG系统主要针对纯文本设计,无法有效处理图表、表格、公式等非文本内容[6] - 现有系统存在检索效果不理想、语义关联缺失、工作流复杂等问题[6] - 各行业迫切需要AI系统具备跨模态综合理解能力,能够同时解析文字、图像、表格和数学表达式[4] 系统架构与功能 - 采用端到端技术栈,包含文档解析、内容理解、知识构建和智能问答等关键功能[10] - 支持PDF、Office文档、图像等10多种主流文档格式[12] - 实现跨模态统一知识表示和检索方法,提供标准化API接口和灵活配置选项[10] 技术亮点 - 一站式多模态处理流程,实现从文档解析到智能问答的全流程自动化[11] - 全方位内容理解能力,包括视觉分析、语言理解和结构化数据处理[13] - 语义关联网络构建,自动识别文档中不同类型内容之间的关联关系[14] - 开放式组件生态架构,支持功能模块灵活调整和添加[15] 多模态理解能力 - 视觉内容分析:集成视觉大模型,自动生成图像描述,提取图表数据关系和视觉要素[19] - 表格智能解析:理解表格层次结构,识别表头关系和数据逻辑联系[20] - 数学公式理解:识别LaTeX格式表达式,分析变量含义和适用场景[20] - 扩展模态支持:支持流程图、代码片段、地理信息等专业内容识别[20] 知识图谱构建 - 将多模态内容统一建模为结构化知识图谱,突破信息孤岛问题[23] - 实体化建模:将异构内容统一抽象为知识实体,保留完整信息[24] - 智能关系构建:自动识别段落间逻辑关系和图文间说明关系[24] - 高效存储索引:建立图谱数据库和向量数据库双重存储机制[24] 检索机制 - 采用双层次检索问答机制,结合图谱检索和向量检索优势[26] - 分层提取细粒度关键词和概念级关键词,精准理解复杂问题[27] - 混合检索方式,通过图谱结构快速找到相关实体节点[27] 部署与应用 - 提供PyPI和源码两种安装方式,支持快速部署[29] - 模块化架构设计,支持一键式端到端处理和精细化手动构建两种使用方式[30] - 全流程自动化,从文档上传到智能问答无需人工干预[34] - 支持精确控制处理流程和定制化功能扩展[35] 未来方向 - 改进系统推理能力,处理跨模态信息深层关联[37] - 探索学术论文图表解析、财务报表数据提取、工程图纸识别等应用场景[37] - 作为构建智能Agent的基础技术,为AI应用提供多模态处理能力[37]
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 21:37
作者 | George Panagiotopoulos 译者 | 明知山 策划 | 丁晓昀 我们的背景 作为一家在银行技术领域拥有超过 30 年行业经验的领军供应商,我们拥有丰富且极具创新性的代码库,并通过战略性收购不断扩大业务。多年来,我们 一直将自己定位为行业的创新者,但创新的迅猛步伐也为我们带来了在庞大产品线中保持文档一致性与时效性的挑战。 虽然我们代码库的部分模块拥有坚实且管理得当的文档,但仍有部分模块存在文档不清晰或内容过时的问题,这导致我们的销售工程师和客户架构师很难 找到所需的信息。此外,我们的领域专家在各自的专业领域拥有深厚的知识和丰富的经验,但这些宝贵的专业知识往往分散且孤立,难以被系统地整合和 获取。 此前,我们曾尝试通过知识共享计划和培训项目来解决这一问题,但由于文档分散和专业知识孤立,这些努力的效果并不理想。我们还尝试引入基于静态 预定义问题和答案数据库的事实查找工具。然而,这些工具在使用过程中面临一个重大挑战——缺乏上下文信息。通常情况下,如果问题本身或其上下文 (或两者)稍有不同,针对特定问题在特定上下文中的答案就难以复用。为了克服这些获取准确技术信息的障碍,我几个月前决定探索使用 ...
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 11:50
GPT-5整合计划 - 下一代基础模型GPT-5计划整合Codex、Operator、Deep Research和Memory等工具,减少模型切换 [2][11] - 核心目标是提升现有模型能力,使其成为多功能助手而非仅提供建议 [10] Codex项目发展 - Codex最初是工程师的业余项目,因内部工作流未充分利用模型而启动 [5] - 内部使用Codex后编程效率提升约3倍,代码和功能交付量显著增加 [5][17] - 团队探索按需付费等灵活定价方案,未来可能推出o3-pro或codex-1-pro版本 [5] 技术实现细节 - Codex CLI工具采用TypeScript编写,因开发者熟悉且适合UI开发,未来将支持多语言扩展 [8] - 云端运行Agent可实现并行化和沙盒化,保障代码安全执行 [9] - 模型利用容器运行时加载的GitHub仓库等静态信息,未来可能结合RAG技术动态引用外部知识库 [15] 效率提升与行业影响 - Codex通过生成多版本代码并筛选最优解,改变传统"氛围编码"范式 [10] - 与良好软件工程实践结合后,开发效率提升显著,测试流程和代码结构优化成为关键 [17] - 未来10年愿景是实现软件需求到可运行版本的高效可靠转化 [18] 开发者生态策略 - Codex定位为辅助工具而非替代品,帮助初级开发者降低学习门槛 [19] - 计划面向Plus/Pro用户推出免费API积分以推广Codex CLI使用 [20] - 官方发布《Codex上手指南》,涵盖GitHub连接、任务提交及提示词技巧等实操内容 [24][25] 技术研究方法 - 采用强化学习提升模型编码能力、代码风格及报告准确性 [15][16] - 团队对强化学习在LLM和编码领域的应用前景持乐观态度 [16]
最新!2025医疗AI应用趋势全解析
思宇MedTech· 2025-02-13 16:11
生成式AI在医疗领域的应用趋势 - 生成式AI已成为AI的代名词,大型语言模型(LLMs)及相关聊天机器人是当前主要表现形式 [1] - 医疗领域正积极探索AI在改善临床及管理工作流程方面的潜力,预计2025年医疗机构对AI项目的风险容忍度将提高 [2] - 2025年医疗机构将更谨慎选择能提升效率或实现成本节约的AI解决方案 [2] 环境聆听AI技术 - 基于机器学习的音频解决方案,通过语音识别实时捕捉并分析医患对话内容 [6] - 应用过程包括实时聆听与分析、信息提取与整理、满足临床需求三个步骤 [8] - 微软子公司Nuance推出的DAX Express应用GPT-4技术,可自动草拟临床笔记并输入电子健康记录系统 [9] - DAX Express已实现减少70%医生疲劳感、提高放射科医生效率1.5倍、提高52%随访依从性等成果 [10] 检索增强生成(RAG)技术 - 结合检索和生成技术的AI框架,通过外部数据库检索信息输入LLMs生成更准确回答 [12] - 应用场景包括AI辅助诊断、个性化医疗优化、临床决策支持和自动化医疗文档生成 [12] 视觉技术辅助患者护理 - 通过病房摄像头、传感器和麦克风实时收集患者生理和行为数据 [14] - Care.ai公司技术可检测患者翻身动作,减少护理负担并避免患者不适 [15] - 部分摄像头可检测患者起身动作,及时提醒医护人员防止跌倒风险 [16] - 史赛克公司2024年8月宣布收购Care.ai以增强医疗IT产品和无线设备组合 [18] 量子计算推动疗法发现 - IBM与克利夫兰诊所合作推出首台医疗研究专用量子计算机 [20] - 已有52个研究项目借助高性能计算技术开展,合作发表多篇蛋白质结构预测研究论文 [21][22] - 克利夫兰诊所与IBM、哈特里中心合作利用量子计算分析数据集预测癫痫患者手术反应 [24] - AI技术已应用于增强成像领域,助力乳腺癌等癌症检测及脓毒症风险预测 [27] AI加速药物发现 - AI用于筛选具有特定物理、化学或治疗特性的候选分子 [30] - 量子计算机分析候选分子动力学特性,评估其作为药物的适用性 [32] - 量子计算结果反馈AI模型增强训练数据,形成研发闭环加速药物发现 [33]