向量数据库

搜索文档
万字长文!RAG实战全解析:一年探索之路
自动驾驶之心· 2025-08-07 17:52
背景介绍 - RAG(检索增强生成)方法结合了检索模型和生成模型的能力,以提高生成文本的质量和相关性 [1] - 该方法由Meta在2020年提出,让语言模型能够获取内化知识之外的信息,并以更准确的方式回答问题 [1] - 在大模型时代,RAG用于解决幻觉问题、知识时效问题和超长文本问题等大模型本身的制约或不足 [1] RAG的挑战 - 主要面临三个方面的挑战:检索质量、增强过程和生成质量 [2] - 检索质量方面存在语义歧义、用户输入变复杂、文档切分和多模内容提取等挑战 [5] - 增强过程面临上下文集成、冗余和重复、排名和优先级等挑战 [5] - 生成质量方面存在过度依赖检索内容、无关性、毒性或偏见等问题 [5] 整体架构 产品架构 - 包含模型层、离线理解层、在线问答层和场景层四层 [11] - 模型层支持自研序列猴子、开源大模型和第三方模型,并优化跨语言Embedding模型 [11] - 离线理解层包括智能知识库和搜索增强模块,负责非结构化文本处理和检索精准度 [11] - 在线问答层支持多文档、多轮次、多模态及安全性与拒识等功能 [11] - 场景层针对不同行业特点预制多种场景类角色 [11] 技术架构 - 分为query理解、检索模型和生成模型三个主要组成部分 [10] - query理解模块包括query改写、扩写和意图识别等,旨在提高召回率 [12] - 检索模型从文档集或知识库中检索相关信息,使用信息检索或语义搜索技术 [12] - 生成模型根据Prompt或上下文生成新内容,包括chat系统和Prompt优化等 [13] Query理解 - 引入query理解模块解决用户query措辞不利于检索和生成结构化查询的问题 [14] - 意图识别模块利用LLM实现决策功能,可应用于选择器模块或查询引擎 [15] - query改写模块利用LLM重新措辞用户query,提高检索效果 [16] - HyDE技术生成假设答案并转换为嵌入,从数据库中检索最接近的实际文档 [17] - query扩写模块将复杂问题拆解为子问题,采用分而治之的方法处理 [22] - Step-Back Prompting通过抽象和推理两步处理复杂任务 [23] - CoVe技术通过验证和完善回答提高大型语言模型答案的可靠性 [25] - RAG-Fusion生成多个query并行执行搜索,使用倒数排名融合重新排序 [27] - ReAct将复杂查询分解成更简单的子查询,结合思维链提示和Action计划生成 [29][31] - query重构模块通过一次请求实现改写、拆解和拓展用户输入 [32] 检索模型 挑战 - 依赖于Embedding模型的向量化是否准确 [33] - 相关信息出现在输入上下文开头或结尾时性能最高,中间性能明显下降 [34] 架构 - 包括文档加载器、文本转换器、文本嵌入模型、向量数据库和索引等组件 [35][37] 文档加载器 - 从配置源加载文档数据,支持懒加载和多种来源如txt文件、网页和YouTube视频 [38] 文本转换器 - 将大型文档分割成较小块,适应模型上下文窗口 [39] - 递归分割文本保持相关文本片段在一起 [40] - 常见类型包括HTML、Markdown、Code、Token和Character等 [43] - 使用Chunkviz工具评估文本转换器工作情况 [44] 文本嵌入模型 - 创建文本的向量表示,捕捉语义并支持语义搜索 [45] - 应具备跨语种检索、长原文和短摘要关联、不同表述相同语义关联等能力 [45] 向量数据库 - 支持嵌入式的高效存储和搜索,检索与嵌入查询最相似的嵌入向量 [47] 索引 - 摘要索引将节点存储为顺序链,支持顺序遍历或基于关键词过滤 [51] - 树索引构建层级树状结构,父节点是子节点的摘要 [53] - 关键词表索引提取关键词并构建多对多映射 [55] - 向量索引利用文本嵌入模型将文本块映射成向量并存储在向量数据库中 [57] 排序和后处理 - 基于相似度分数、关键词、LLM重新排序或时间进行过滤和排序 [59] 生成模型 - 回复生成策略包括依次结合相关文本块修正回复或在Prompt中填充多个文本块 [66] - prompt拼接策略包括字符串提示和聊天提示 [61] - 字符串提示连接模板,聊天提示由消息列表组成 [62][63] 插件 - 基于混合演示检索的上下文学习方法融合文本检索和语义检索进行多路召回 [64] - 检索模块包括文本检索和语义检索,分别采用BM25和双塔模型 [70] - 重排模块使用倒序排序融合算法和两端填充排序策略 [71] - 生成模块设计prompt组装模块,融入长期和短期对话记录 [72] 引用或归因生成 - 归因让模型生成内容与参考信息对齐,提供证据来源确保信息准确性 [73] - 模型生成方法直接让模型生成归因信息,依赖模型能力 [75] - 动态计算方法在流式生成时匹配语义单元和参考源 [76] 评估 - Faithfulness评测生成的回答是否忠实于contexts,避免幻觉 [79] - Answer Relevance评测生成的答案是否解决实际问题 [79] - Context Relevance评测检索的上下文是否重点突出且少含无关信息 [79] - RGB基准研究RAG对大型语言模型的影响,分析噪声鲁棒性、拒答等能力 [77] - RAGAS框架对RAG pipeline进行无参考评估,考虑检索系统和LLM能力 [81] - LlamaIndex提供衡量生成结果质量和检索质量的模块 [81] 总结 - RAG技术需要不断实践和研究才能打磨出符合企业应用的精品 [82] - 本文总结了过去一年在RAG实践的关键模块,属于大纲式技术普及文章 [82]
数据治理对人工智能的成功至关重要
36氪· 2025-07-21 11:09
大语言模型(LLM)的应用与潜力 - 自ChatGPT发布以来,大语言模型(LLM)已成为主流,推动各行各业探索其在业务转型中的潜力 [1] - 多种技术如RAG、向量数据库、重排序器等应运而生,帮助构建更强大的AI系统 [1] - 提升AI系统业务影响力的最有效方法依然是数据 [1] 人工智能系统在企业中的应用 - AI需要输入数据才能发挥作用,催生了RAG(检索增强生成)架构 [2] - 输入数据可以是合同、采购订单、工程文档等,具体取决于用例 [2] - 以航空公司客户服务聊天机器人为例,RAG架构包括构建知识库、索引分块文档、检索相关文档块并生成响应 [2] - 数据层的工作对业务影响更为合理和有效,知识存储的质量直接影响AI响应质量 [2] 知识库数据的问题 - 提供的文档可能与用例无关,增加噪音 [5] - 可能缺少解决任务所需的文档 [5] - 文档可能过时或未及时更新 [5] - 文档可能存在版本冲突或包含敏感信息 [5] 数据治理的发展 - 数据治理角色正在扩展,以支持AI系统和非结构化数据治理 [6] - 传统数据治理主要关注结构化数据,但GenAI的出现使其涵盖非结构化数据 [6] - 数据治理通过与业务、AI技术和数据团队协作,可构建安全、准确且可扩展的AI系统 [6] NoSQL数据库的设计 - 许多开发人员在设计NoSQL数据库时仍使用关系型思维模式 [8] - NoSQL数据库有多种类型,设计时需根据其特定用途仔细考虑 [8]
现在做原生AI产品,产品经理会面临至少下面5个问题
36氪· 2025-06-30 08:53
AI产品技术实现形式 - AI产品分为两类:调用API形式和部署AI模型形式 [2] - Native AI产品的功能入口与交互是整个产品框架的底层机制,而传统AI产品仅部分功能模块采用AI [2] - Native AI产品的数据接口来自全量向量数据库加普通数据库 [2] Native AI产品的限制与突破 - 原有产品设计框架限制突破:Native AI产品的交互和输入数据需全部由AI访问和调用,避免传统输入方式如输入框和固定功能模块 [2][3] - 原有产品技术架构限制突破:数据库需全面更新为向量数据库,将文本、图片、视频等转为非关系性向量数据 [4] - 向量数据库的引入带来技术架构变化,需重新考虑数据调用方式、安全性及匹配新的研发工种 [5] - 向量数据库的算力要求需额外考虑GPU、电源和功耗问题,传统CPU运算无法满足 [5] 资源投入与团队管理 - Native AI产品研发需新建单独产品形态,推翻重做以降低开发门槛 [6] - 产品经理需做好研发计划与立项预期,确保老板在预期内投入资源 [6] - 60%以上的产品经理未接触过付费AI模型,团队学习成本高 [7] - 传统行业(如ERP或电脑制造商)推动AI产品研发难度大,私有化部署难以实现 [7] 行业文化与团队动力 - 互联网大厂通过末位淘汰和人员流动保持战斗力,驱动员工主动学习 [8] - 大厂文化鼓励员工自愿加班和分享工作心得,形成自下而上的驱动机制 [8] - AI产品研发需团队突破全新知识体系,传统体制内团队难以实现自愿学习与加班 [8]
Elastic(ESTC) - 2025 Q4 - Earnings Call Transcript
2025-05-30 06:00
财务数据和关键指标变化 - Q4总营收3.88亿美元,同比增长16%,订阅收入3.62亿美元,同比增长16%,Elastic Cloud收入增长23%,非GAAP运营利润率达15% [7][29] - FY 2025调整后自由现金流利润率增长约600个基点,达19% [35] - Q4当前剩余履约义务(CRPO)约10亿美元,同比增长18%,按固定汇率计算增长17% [31] - 年收入超100万美元的客户增长约27%,新增约45个净新客户;年收入超10万美元的客户增长约14%,新增约180个净新客户 [32] - 预计FY 2026第一季度总营收在3.96 - 3.98亿美元之间,非GAAP运营利润率约为11.5%,非GAAP摊薄后每股收益在0.41 - 0.43美元之间;预计FY 2026总营收在16.55 - 16.7亿美元之间,非GAAP运营利润率约为16% [40] 各条业务线数据和关键指标变化 - Q4 Elastic Cloud收入增长23%,云业务占订阅收入超50% [7][18] - 订阅收入扣除月度云收入后,Q4为3.15亿美元,同比增长19%;FY 2025为11.95亿美元,同比增长20%,按固定汇率计算增长21% [31] 各个市场数据和关键指标变化 - 各地区业务执行良好,APJ增长最快,其次是EMEA和美洲地区 [32] - 美国公共部门业务面临压力,导致销售周期延长,特别是联邦民用业务 [14][33] 公司战略和发展方向和行业竞争 - 继续推动企业和高潜力中端市场客户的获取和拓展,不计划对销售策略进行重大调整 [7][26] - 持续创新,为云和自托管架构提供创新功能,加强在搜索、可观测性和安全领域的差异化竞争优势 [19][22] - 加强与合作伙伴的合作,如与AWS达成五年战略合作协议,与NVIDIA合作开发插件等 [24][19] - 增加安全销售专家团队,以抓住安全平台整合机会 [73] 管理层对经营环境和未来前景的评论 - 公司在FY 2025表现出色,各方面指标超预期,对未来增长充满信心 [6][28] - 尽管宏观环境动态变化,但公司管道健康,业务模式激励客户将更多数据迁移至Elastic [16] - 预计FY 2026将继续实现增长和强劲利润率,但需谨慎应对宏观不确定性 [16][37] 其他重要信息 - 公司将参加6月5日的美国银行技术会议和6月11日的Rosenblatt虚拟AI会议 [5] - 公司将于10月9日在纽约市举办金融分析师日活动 [5] - 第一季度FY 2026静默期从7月17日营业结束时开始 [4] 问答环节所有提问和回答 问题1: 指导数据是否比过去更保守,哪个指标是业务的更好领先指标 - 新CFO需谨慎给出首次指导,平衡了积极需求信号和宏观不确定性,将美国公共部门压力外推至整个业务,并假设Q2 - Q4有更多消费逆风 [45][46] - 最佳业务衡量指标仍是收入,销售团队表现的最佳指标是订阅收入扣除月度云收入,CRPO也是有用指标 [48][49] 问题2: 如何看待与AWS等的合作机会及市场推广部分 - 公司被市场接受为合适且受欢迎的向量数据库,与超大规模云服务提供商合作,争取成为第三方服务中的首选 [53] - 超大规模云服务提供商的市场是开展业务的好地方,公司与合作伙伴合作开展激励计划,推动客户采用Elastic Cloud [55] 问题3: 如何看待检索增强生成(RAG)架构的采用及公司定位 - RAG在构建对话应用、自动化工作流等方面至关重要,公司向量数据库在这些用例中得到广泛采用,RAG将长期存在,对云和自托管业务都有益 [58][59] 问题4: 本季度云业务环比增长较小的原因 - Q4有闰年影响且比其他季度少三天,是消费逆风因素,正常化天数后云增长率处于20%中段,表现健康 [63][64] - 云业务规模增大后出现季节性模式,Q1环比增长通常较低,Q2和Q3较高 [65] 问题5: 上一财年的市场策略变革是否完成,下一步策略及对企业客户的策略 - 上一财年的区域变革已见成效,本财年不计划进行重大改变 [69] - 继续招聘销售团队,增加安全销售专家团队,专注企业和高潜力中端市场客户,通过销售驱动市场策略,SMB业务通过月度云自助服务驱动 [72][74] 问题6: 如何看待GenAI在FY 2026的定位和发展轨迹,以及AgenTeq AI机会和用例 - 客户从文本搜索向语义搜索、对话应用和代理工作流发展,公司专注于提高检索效率、准确性、速度和规模,目标是成为每个Gen AI应用的首选向量数据库 [75][77] - 新兴用例包括销售自动化、营销自动化、法律电子发现、与合作伙伴的对话应用等,涵盖多个行业 [97][98] 问题7: 不同业务部分的收入贡献变化及月度云业务的未来趋势 - 月度云业务是自助服务驱动,主要面向SMB客户,公司重点是企业和高潜力中端市场客户 [83][84] - AI业务处于早期阶段,随着发展,搜索业务收入贡献将增加,但AI将使所有业务受益,预计各业务都将增长 [87][88] - 2026年月度云收入预计大致持平,本季度占总收入约12% [90] 问题8: 100万美元客户中使用AI的情况及新兴用例 - 100万美元客户中有25%使用公司进行某种AI工作负载,展示了该客户群体的采用情况 [95] - 新兴用例包括销售、营销自动化、法律电子发现、与合作伙伴的对话应用等,客户从语义搜索用例扩展到自动化代理工作流 [97][98] 问题9: 公共部门业务压力主要体现在哪些方面 - 公司业务多元化,公共部门是重要垂直领域之一,虽面临压力,但其他地区表现良好,使Q4仍保持强劲 [101] - 已将美国公共部门压力外推至整个业务,这是收入指导范围的最大影响因素 [38][114] 问题10: Q4云业务增长未加速的原因及业务组合情况 - 不能仅将AI与云业务关联,AI需求在云和自托管业务中都有体现,自托管业务也表现良好 [108] - 消费情况稳定,云和自托管业务都将是增长驱动力 [109][110] 问题11: 新市场细分策略的主要收获、意外情况及调整方向 - 市场细分策略已见成效,公司看到更大交易、与高级买家更多互动和更好的平台整合机会,目前无需重大改变 [120][121] - 继续增加销售团队和安全销售专家团队,专注企业和高潜力中端市场客户,推动业务增长 [72][73] 问题12: 100万美元和10万美元客户使用公司整个产品组合的情况 - 未细分该数据,将在10月的金融分析师日活动中提供详细信息 [133] - 大客户通常使用公司平台用于多个用例,平台方法提供了使用灵活性 [133][134] 问题13: 4月到5月业务线性度在垂直领域或客户规模上是否有差异 - 公司垂直领域多元化,4月到5月业务线性度无明显差异,目前宏观情况与Q4类似,除美国公共部门外无新增消费压力 [136] 问题14: 销售团队生产力现状及与管道的关系 - FY 2025销售团队生产力令人满意,年初的变革在Q4开始显现成效 [140] - 公司内部使用AI提高销售团队生产力,未来将继续关注该指标 [140][141]
RAG系统设计:揭秘语义搜索被低估的核心价值与KG驱动的架构选型策略
AI前线· 2025-05-14 13:47
RAG系统与语义搜索 - RAG系统通过检索增强生成解决LLM的局限性,包括训练成本高和幻觉问题[5] - 语义搜索在RAG系统中被严重低估,其核心是将文件映射到高维测度空间实现语义匹配[10] - 语义搜索允许直接将文件作为索引,通过embedding形式与查询对比,具有处理低资源文件和长文件的灵活性[11][12] 系统设计与损失函数 - 工程是取舍的艺术,需要明确能够接受的权衡和牺牲[19] - Contrastive Loss形成多个相距m距离的紧密聚类,适用于结构紧密、方差较小的数据[21] - Triplet Loss适用于类内方差较大的数据,如同一个人在不同光照条件下的人脸图像[26][27] 距离函数与嵌入模型 - 余弦距离不符合度量空间定义但计算简单,适合推荐系统等只关注方向的场景[29][30] - 欧几里得距离适合复杂场景如电商推荐,但可能出现数值溢出和高维数据稀疏问题[35][36] - 嵌入模型选择优先级:性能/成本权衡 > 数据领域 > 损失函数 > 距离度量[42][43] 向量数据库与索引 - 向量数据库选择需考虑开源/闭源、实现语言和部署方式[45][48] - 索引方式包括哈希、树、图和倒排索引,图索引适用于大多数高维数据场景[50] - 系统设计重点是为语义搜索提供数据结构,如分层结构或Context Enrichment[53][56] KG-RAG与未来趋势 - KG-RAG能清晰描述实体关系但成本高,Lazy Graph RAG通过结合语义搜索降低成本[72][73] - 大模型正向端设备迁移,需要更快的RAG实现以适应有限资源[79] - 机器学习系统设计最佳实践是优先使用传统方法如SQL或正则表达式[81]