向量数据库
搜索文档
AI infra:算力系统化升级DB for AI进程加速:计算机行业重大事项点评
华创证券· 2026-01-27 18:13
行业投资评级 - 计算机行业评级为“推荐”(维持)[3] 核心观点 - 大模型记忆和硬件将成为模型发展核心叙事,助力AI数据库(AIDB)与向量数据库规模化进程[2] - AI基础设施(AI infra)正从算力中心化升级为算力系统化、数据智能化的协同演进路径,向量数据库与AI原生数据库与底层算力平台共同构成“模型训练—推理部署—数据支撑—智能应用”闭环体系[6] - 产业不断发展,看好数据库赛道,建议关注AI infra在数据库方面的机遇[6] 行业趋势与事件分析 - **AI Infra向系统级协同演进**:NVIDIA BlueField-4数据处理器为NVIDIA推理上下文内存存储平台提供核心支撑,构建面向超大规模并发推理场景的新一代AI-native存储基础设施,通过扩展AI Agent的长期记忆能力并实现机架级集群间高带宽上下文状态共享,在系统层面显著提升推理效率[6] - **数据库向AI原生底座演进**:阿里云PolarDB以“AI就绪数据库”为目标,系统性提出多模态AI数据湖库(Lakebase)、高效融合搜索、模型算子化服务与Agent后端能力四大支柱,推动数据库从传统OLTP/OLAP基础设施向AI原生数据底座演进[2][6] - **产业资本大规模投入**:2025年9月,OpenAI与Oracle、日本软银联合宣布将在美国新建五个AI数据中心(AIDC),未来三年总投资预计超过4000亿美元,以满足对文件存储和数据库的需求并为AI发展提供计算能力[6] - **向量数据库市场高速增长**:根据MarketsandMarkets数据,向量数据库市场规模预计将在2025年达到26.521亿美元,到2030年将达到89.457亿美元,预测期内复合年增长率(CAGR)为27.5%[6] 重点公司动态 - **达梦数据**:自2023年开始布局AI领域,聚焦数据管理、多模型训练、智能体生成,其启云数据库智能运维平台基于LLaMA3.x、QWen2.5等通用大模型微调,能实现参数优化、SQL生成与优化等功能,2025年12月,达梦数据库管理系统V8在信通院“可信数据库”测试中通过,标志其向量数据库在非结构化数据领域达国内技术先进水平[6] - **星环科技**:2025年公司围绕“AI+DATA”核心战略推出新一代AI infra,包含知识平台、AI平台、AI就绪数据平台、资源平台四大平台,旗下基于海光7000系列处理器与星环科技分布式数据库ArgoDB的联合解决方案在TPC-C基准测试中创造了新的性能纪录[6] - **海量数据**:2025年12月,清华大学联合海量数据共同申报的数据智能北京市重点实验室成功获批,实验室以构建安全可信、智能高效的新一代数据基础设施为核心目标,重点布局AI原生数据库、自主数据科学系统、可信数据空间三大方向[6] 行业表现数据 - **行业基本数据**:计算机行业股票家数337只,总市值64,270.02亿元,流通市值58,082.25亿元[3] - **相对指数表现**:过去1个月绝对表现11.5%,相对表现10.5%;过去6个月绝对表现21.1%,相对表现7.1%;过去12个月绝对表现39.5%,相对表现16.7%[4] 投资建议 - 关注AI infra在数据库方面的机遇,相关企业包括达梦数据、星环科技、海量数据等[6]
联想申请数据处理方法专利,支持向量数据跨数据库存储
金融界· 2026-01-09 14:53
公司技术研发动态 - 联想(北京)有限公司于2025年9月申请了一项名为“数据处理方法和电子设备”的专利,公开号为CN121301402A [1] - 该专利涉及一种数据处理方法,核心在于电子设备将用于数据向量化的执行逻辑数据挂载至触发区,在数据写入存储器的过程中触发该逻辑执行,从而将写入的数据转换为向量 [1] - 该方法通过一个基于驱动层实现的预设存储接口,将生成的向量存储至多个向量数据库中的任意一个,该接口旨在适配不同的向量数据库 [1] 公司背景与经营概况 - 联想(北京)有限公司成立于1992年,位于北京市,主营业务为计算机、通信和其他电子设备制造业 [1] - 公司注册资本为565,000万港元 [1] - 公司对外投资了107家企业,参与招投标项目5,000次 [1] - 公司拥有商标信息1,747条,专利信息5,000条,以及行政许可238个 [1]
英伟达CES发布了什么-星环科技为何受益
2026-01-07 11:05
行业与公司 * 涉及的行业:人工智能计算、数据库、半导体、数据中心基础设施(液冷、光通信)[1][2] * 涉及的公司:英伟达、星环科技、Groq[1][6][9] 英伟达CES发布的核心技术与产品 * 推出名为“记忆中枢”的上下文存储系统,由BlueField 4代DPU驱动,旨在通过智能数据调度和存储优化提升GPU计算效率[3] * 核心优化在于通过PU和SSD提升GPU计算效率,特别是在线学习等新模型架构的数据处理能力[1] * 具体方案为每块GPU背后至少配置1TB的SSD,将冷数据逐步迁移为热数据存储,并用低成本SSD替换高成本DRAM,实现更高效的数据处理和存储[1][3] * 收购Groq并采用Atrium方式优化HBM交互层,使未来模型架构中的固定权重更新更高效,并促进SSD与HBM间的数据传输速度,大幅提高系统性能[1][9] 新技术对数据库市场的影响 * 新架构极大提升内存使用效率,打破“内存墙”,使GPU能更快访问数据,提高整体计算性能[1][4] * 特别利好向量数据库,因其按流量计费,内存墙打破和热数据需求增加将显著提升其数据流量[1][4] * 若未来每块H200芯片配备160GB显存并在国内市场大量采用,向量数据库的业务增量可能达到数百亿级别[4][5] 星环科技的核心优势与受益逻辑 * 星环科技是国内领先的独立第三方向量数据库厂商[1][6] * 其核心优势在于按流量计费模式,这与全球范围内形成的默契及新计算架构的需求相符[6] * 公司能够充分利用英伟达和谷歌推动的存算一体化带来的流量增长,实现业务空间成百倍放大[1][6] 向量数据库与传统数据库的区别 * 最大区别在于收费模式:向量数据库按流量计费,传统数据库按节点收费[1][7] * 数据管理对象不同:向量数据库管理热数据,更适合实时训练和在线学习;传统数据库主要管理冷数据,确保数据不丢失、不变形[7] * 商业模式吸引力:在新架构下,按流量计费模式能更好反映实际使用情况,对企业而言更经济高效,因此更具灵活性和经济性吸引力[1][7] 对其他行业的利好影响 * 对液冷、光通信等数据中心核心基础设施板块产生积极影响,推动相关基础设施发展[2][8] * 新技术提升整体计算效率,为整个产业链带来广泛利好,包括硬件制造、云服务提供商及各类AI应用开发者[2][9]
广发证券:AI推理RAG向量数据库推动SSD需求增长 建议关注产业链核心受益标的
智通财经网· 2025-12-31 09:39
RAG架构推动向量数据库与存储需求 - RAG架构为大模型提供长期记忆 通过向量数据库连接用户查询与外部知识 提升生成结果的准确性和时效性 企业和个性化需求正推动RAG需求增长[1] - 企业侧 RAG正渗透至在线场景如电商和Web搜索 以及离线场景如企业、法律和工程研究[1] - 个人侧 个性化RAG保留用户长期记忆与偏好 形成用户级向量空间 显著推高RAG需求增长[1] 向量数据库存储架构向全SSD演进 - 向量数据库存储介质正从内存参与检索向全SSD存储架构过渡 以满足大规模向量数据及索引结构对高吞吐和低时延的要求[2] - 以KIOXIA AiSAQ为例 10B级向量规模所需SSD容量为11.2TB 其中PQ Vectors占1.28TB 索引占10TB[2] - 采用TLC/QLC SSD下 AiSAQ相较于DiskANN具备4-7倍的成本优势 且无冷启动延迟 提升了RAG系统的规模化扩展能力与经济可行性[2] 新架构范式进一步拉动SSD需求 - 火山引擎TOS推出Vector Bucket 采用自研Cloud-Native向量索引库Kiwi与多层级本地缓存协同架构 涵盖DRAM、SSD与远程对象存储[3] - 该架构满足高/低频数据的分层需求 显著降低企业大规模使用向量数据的门槛[3] - 在交互型Agent场景中 高频访问记忆存放在向量数据库实现毫秒级检索 低频访问记忆沉淀到TOS Vector以秒级延迟换取更低存储成本和更广阔记忆空间[3] 产业链投资机会 - AI推理中的RAG向量数据库推动高带宽、大容量SSD需求将持续增加[1] - 建议关注产业链核心受益标的[1]
计算机行业点评:AI投资从硬到软拐点:再谈谁是中国MongoDB
民生证券· 2025-12-30 13:47
行业投资评级 - 报告对计算机行业维持“推荐”评级 [1] 核心观点 - AI投资正经历从硬件到软件的拐点 向量数据库在AI时代的核心地位持续得到验证 [1][4] - 存储成本提升背景下 “用廉价存储换昂贵内存”的向量数据库技术有望成为重大技术趋势 [4] - 国产向量数据库正加速落地 在金融、能源等重点行业已出现千万级采购的积极信号 行业处于从技术探索走向规模化落地的关键阶段 [4] - 在英伟达Storage Next等新技术催化下 向量数据库赛道有望加速发展 [4] 行业动态与技术进展 - 星环科技ArgoDB与海光7000系列处理器的联合解决方案在TPC-DS基准测试中创造了新的性能纪录 比现有TPC官网公开的世界第一性能成绩提升了62% [4] - 向量数据库技术出现重大趋势 Milvus推出的AiSAQ索引可将向量检索的内存占用从32GB大幅降低至10MB 更多利用低成本SSD替换高成本DRAM [4] 商业模式与定价 - 向量数据库主要围绕计算和存储两大核心需求进行计费 主要有包年包月和按量计费两种模式 [4] - 以北京、上海、广州、成都地区为例 包年包月模式下 计算节点价格为38.3333元/GB/月 存储节点价格为0.7元/GB/月 [4] - 按量计费模式下 计算节点价格为0.1065-0.0532元/GB/小时 存储节点价格为0.000972222元/GB/小时 [4] 投资建议与关注公司 - 报告建议关注星环科技、达梦数据、海量数据、太极股份、超图软件、拓尔思等国内向量数据库厂商 [4]
计算机行业周报20251214:谁是中国的MongoDB-20251214
国联民生证券· 2025-12-14 11:12
报告行业投资评级 - 对计算机行业维持“推荐”评级 [6] 报告的核心观点 - 向量数据库是AI应用的核心基础设施,其核心地位正被MongoDB业绩超预期及股价创新高所验证 [5][14] - 在英伟达Storage Next等新技术催化下,向量数据库赛道有望加速发展 [5][19] - 国内向量数据库正处于从技术探索走向规模化落地的关键阶段,在金融、能源等重点行业已出现千万级采购的积极信号 [5][23] - 乐观看待我国向量数据库厂商发展机遇 [5][28] 根据相关目录分别进行总结 1 本周观点 1.1 向量数据库:AI应用核心基础设施 - **MongoDB业绩验证赛道价值**:MongoDB在2025年第三财季总营收同比增长19%至6.28亿美元,远超市场预期的5.92亿美元,调整后每股收益为1.32美元,远超市场预期的0.80美元 [14] - **云服务驱动高增长**:其Atlas云数据库产品营收同比增长30%,占公司第三财季总营收约75%,公司还将2026财年全年营收指引上调至24.34亿美元至24.39亿美元区间 [14] - **技术契合AI需求**:MongoDB具备灵活的JSON模型、毫秒级稳定时延(平均3~5 ms)、PB级水平扩展(单库可扩展至2PB以上)以及多模数据“All In One”存储与查询能力,天生契合构建AI应用 [16][17] - **新硬件范式强化地位**:英伟达Storage Next SSD范式有望改变软件设计,从以DRAM为中心转向以SSD为导向,可加强向量数据库在AI基础设施中的核心地位 [19] - **全球市场高速增长**:据QYResearch预测,全球向量数据库市场规模有望在2031年达到164亿美元,2025-2031年复合年增长率(CAGR)为28.27% [21] - **国内市场规模化在即**:2025年前三季度国内数据库市场规模达436亿元,同比增长超20%,向量数据库在金融、能源等重点行业已出现千万级采购信号 [23] - **国内厂商技术成熟**:中国向量数据库厂商包括互联网大厂(京东、火山、百度、腾讯)、专业软件厂商(Zilliz、星环科技、九章云极)及IT公司(浪潮)等,技术趋于成熟 [26] - **国内产品排行**:根据墨天轮2025年12月数据,国内向量数据库产品排行前列的包括Milvus、Vearch、VikingDB、百度云VectorDB、腾讯云VectorDB等 [27] 1.2 投资建议 - 建议关注国内向量数据库厂商:星环科技、达梦数据、海量数据、太极股份、超图软件、拓尔思等 [5][28] 2 行业新闻 - 工信部发布14个行业数字化转型“场景导航图”,旨在系统推进制造业数字化转型 [3][29] - 谷歌宣布其首款AI眼镜将于明年上市,融合实时翻译、图像识别等功能 [3][32] - 蚂蚁集团全模态AI助手“灵光”正式推出网页版,聚焦办公与学习场景 [30] - “国资央企领域可信数据空间”发布,武清枢纽节点已投入运营,提供数据传输与多元算力调度服务 [31] 3 公司新闻 - **神州信息**:控股股东神州数码软件有限公司计划减持不超过28,827,300股,占公司总股本的2.9543% [4][33] - **中科曙光**:公司董事会审议通过终止与海光信息的重大资产重组议案 [4][34] - **创识科技**:副总经理田暐计划减持不超过630,000股,占公司总股本0.31% [33] - **维宏股份**:股东郑之开计划减持不超过1,256,400股,占公司总股本1.1548% [34] - **天地数码**:公司将回购注销部分限制性股票,总股本由151,240,499股变更为151,213,683股 [35] 4 本周市场回顾 - **指数表现**:本周(12.08-12.12)沪深300指数下跌0.71%,中小板指数下跌0.13%,创业板指数上涨1.75%,计算机(中信)板块下跌1.44% [2][36] - **个股涨幅前五**:开普云(涨12.59%)、淳中科技(涨12.55%)、荣科科技(涨12.19%)、达华智能(涨11.73%)、赢时胜(涨10.14%) [2][41] - **个股跌幅前五**:佳华科技(跌23.71%)、恒银科技(跌13.62%)、中科曙光(跌10.09%)、思创医惠(跌14.49%)、天源迪科(跌14.01%) [2][41] - **重点关注个股**:报告列出了包括科大讯飞、恒生电子、浪潮信息、太极股份等在内的多只计算机行业个股的股价及估值数据 [42]
Agentic AI时代,向量数据库成“必选项”
钛媒体APP· 2025-12-05 13:18
行业趋势与市场前景 - Agentic AI(代理式AI)的兴起正在对底层数据库基础设施提出全新要求,向量数据库从幕后走向台前,成为支撑下一代智能体系统的关键基础设施 [1] - 生成式AI以内容创造为核心,Agentic AI以自主决策交互为特征,二者的演进推动向量数据库从基础存储检索工具向AI能力基座升级 [2] - 据Gartner预测,2025年Agentic AI市场规模将突破千亿美元,年复合增长率超65% [2] - 据Gartner预测,到2028年,支持生成式AI的数据库支出将达2180亿美元,占市场74% [3] - 2024年全球云数据库管理系统收入占比已达64%(766亿美元),贡献了89%的市场增量,云已成为数据库的主流部署环境 [13] Agentic AI对数据库的核心需求 - Agentic AI的核心特征是自主目标驱动,能够理解复杂需求、拆分任务流程、调用外部工具、实时调整策略,这彻底改变了传统RAG被动、静态、低频的调用模式 [2] - 对读写性能要求极高:Agent在单次任务中可能产生数十次读写操作,调用记忆模块的频次和数据更新速度远超传统RAG场景 [5] - 需支持“千人千面”的个性化数据存储:为每个用户生成独立的行为轨迹、偏好向量等,向量数据动辄达到百亿量级 [6] - 需在成本与性能间实现平衡:要求数据库具备智能化的数据生命周期管理,实现热数据高性能访问,冷数据低成本存档 [6] - 需具备多模态融合处理能力:能够同时处理文本、图像、地理位置、用户行为等多种信号的向量,并实现跨模态关联检索 [7] 向量数据库的核心价值与功能 - 向量数据库的核心价值在于高效检索“语义相似性”,擅长处理非结构化或半结构化数据编码生成的高维向量,以找出最相似的Top-K个向量 [9] - 作为大语言模型的记忆体,以极具性价比的形式提供存储功能,在减少大模型开发成本的同时提高其性能 [9] - 为对数据隐私有需求的企业提供了存储和管理企业知识的不二选择 [9] - 为Agentic AI提供四大不可替代的价值:构建可扩展的认知记忆、实现低延迟的经验检索、支撑多Agent的集体协作、降低AI落地的信任门槛 [9][10] - 具体技术优势包括:分布式架构支持百亿级向量存储、配合冷热分层、AutoIndex技术使查询性能提升3-5倍、支持BYOC方案满足合规要求 [9][10] 公司(Zilliz)产品与战略 - Zilliz是全球首个向量数据库企业,创造了开源向量数据库Milvus,并推出商业版Zilliz Cloud [3] - 公司产品Milvus及Zilliz Cloud是为数不多能处理百亿量级个性化向量数据的产品 [6] - Milvus针对高性能读写做了大量优化,并推出了内存-磁盘-对象存储的多层存储方案以平衡成本与性能 [5][6] - Milvus自2.4版本开始支持多向量列及各种标量数据,积累了稠密向量、稀疏向量、二值型向量等向量类型数据,以及地理位置、标签等标量类型数据的支持 [7] - 公司采用开源Milvus与闭源Zilliz Cloud“双管齐下”的商业模式,两者完全接口兼容,企业可平滑迁移,迁移成本几乎为零 [10][12] - 公司定位在AI基础设施层,将向量数据库作为连接大模型与垂直场景的关键齿轮 [10] 公司(Zilliz)合作伙伴与云协同 - Zilliz自2021年起与亚马逊云科技展开深度合作,目前是其最高等级的第三方合作伙伴,合作涵盖技术适配、产品集成、市场推广、客户服务等多个层面 [13] - 基于Amazon EC2丰富的实例类型,Zilliz Cloud提供了性能型、容量型等多套深度优化的解决方案 [13] - 基于Amazon EKS的容器化自动扩缩容能力,Zilliz Cloud可动态应对流量高峰 [14] - Zilliz Cloud适配了支持Amazon Graviton处理器的实例,可将成本优化提升20%以上,并显著提升性能 [14] - 客户可利用亚马逊云科技在模型服务层的优势,通过Amazon Bedrock调用领先的大语言模型和嵌入模型 [14] - 亚马逊云科技Marketplace为Zilliz导入大量用户,其中包括许多国内AI出海企业 [15] - 合作是双向的,Zilliz Cloud的高性能向量搜索能力也为亚马逊云科技企业客户带来商业影响,并引导用户使用SageMaker、Bedrock等亚马逊云科技AI产品 [15] 应用案例与成效 - 在电商智能客服场景中,Agentic AI需在毫秒级内完成海量非结构化数据的检索与关联,传统数据库无法承载 [8] - 在HR领域,智联招聘与Milvus合作,采用向量召回技术提升招聘匹配效率 [11] - 在传媒领域,搜狐新闻利用Milvus分布式向量检索引擎,使向量检索速度提升10倍,新闻分类准确率提高至95%,并减少了内存占用 [11] - 某电商客户图搜场景实现<30毫秒响应 [10] - 某头部电商在业务高峰期将自建Milvus集群切换到Zilliz Cloud,以解决稳定性与性能调优瓶颈 [12] - 美国法律AI SaaS公司Filevine使用Zilliz Cloud使海量法律文档可快速搜索,将研究时间从数小时缩短至数分钟,这得益于Zilliz Cloud自研内核Cardinal相较开源Milvus 10倍的性能提升以及AutoIndex优化 [16]
百亿向量,毫秒响应:清华研发团队向量数据库 VexDB 首发,攻克模型幻觉难题
AI前线· 2025-09-25 16:04
文章核心观点 - 生成式AI的幻觉问题已成为其深入企业级核心应用的主要障碍,尤其在医疗、金融等高风险领域,模型可能生成虚假信息,引发业务风险[2][6][8] - 业界采用检索增强生成(RAG)方案来约束大模型输出,其性能瓶颈集中在检索环节,检索的准确性、速度和稳定性直接决定AI应用的成败[9][11] - 向量数据库作为RAG架构的核心组件,通过高效的非结构化数据语义检索,为AI应用提供可信的知识基石,是解决幻觉问题的关键基础设施[12][14] - 清华团队发布的VexDB向量数据库在精度、规模、响应速度和动态更新等维度实现突破,并在医疗、通信等行业实践中显著提升效率与可靠性[4][15][17][19][20] 大模型幻觉问题与企业级应用风险 - 大模型幻觉源于其基于统计概率的生成机制,缺乏真正的逻辑推理和事实核查能力,例如在HHEM测试中,DeepSeek-R1模型的幻觉率高达14.3%,即每7次摘要就有1次产生幻觉[6] - 企业级应用中,模型幻觉从技术问题升级为致命业务风险:医疗领域可能误导诊断并引发医患纠纷;金融领域基于虚假信息的风险评估会导致巨额资金损失[8] - 解决幻觉问题是AI技术融入企业核心业务流程的准入资格,构建可信的AI基础设施是部署关键场景的前提[8] RAG解决方案的价值与挑战 - RAG通过引入外部知识源,将大模型的生成过程约束在可控、可信范围内,而非修改模型底层算法[9] - 典型工作流程包括将企业私域知识切片、向量化并存入检索库,系统实时检索相关片段以引导模型生成可靠结果[10] - RAG性能瓶颈集中在数据处理、检索和结果整合三大环节,性能问题直接影响业务落地,例如电商智能客服检索响应超过2秒会导致用户咨询流失率上升30%[11] - 检索能力决定RAG系统天花板,某金融RAG项目通过数据去重与分层,检索效率提升40%,召回准确率从72%提升至89%[11] 向量数据库的技术必要性与发展趋势 - 传统关系型数据库在处理非结构化数据的语义搜索时力不从心,向量数据库专为高维向量相似性搜索设计,能通过计算向量距离度量语义相似性[12] - 全球向量数据库市场规模2024年为22亿美元,预计2025-2034年复合年增长率达21.9%,2034年将达151亿美元,反映企业对可靠AI基础设施的迫切需求[14] - Gartner预测到2026年,使用具有基础模型的向量数据库的公司比例将从2022年的2%升至30%[16] - 向量数据库正从RAG工具向AI数据基础设施平台演进,承担知识资产管理器、多模态语义连接器、Agent中枢引擎等复杂角色[20] VexDB向量数据库的技术突破与应用实践 - VexDB支持百亿千维向量数据毫秒级查询,召回准确度高达99%以上,并在DABSTEP非结构化数据分析测试中以领先第二名超10个百分点的成绩夺冠[4] - 关键技术突破包括高精度多路召回机制,支持稠密向量、稀疏向量检索和标量过滤,通过SQL层实现多路召回;结合HNSW与DiskANN的GraphIndex结构支持百亿规模毫秒响应[15] - 在医疗领域应用端到端RAG诊疗辅助系统,将病历生成时间从20多分钟缩短至8分钟内,效率提升超60%[17] - 在通信行业赋能营销导购与云盘服务,使客户转化率提升30%,方案产出耗时减少60%,云盘检索体验满意度超90%[19] - 支持动态更新与高可用架构,满足高并发场景下的数据一致性与业务连续性需求[20]
国产数据库群雄逐鹿,谁是下一个中国“甲骨文”?
36氪· 2025-09-23 08:04
AI革命推动数据库行业变革 - 生成式AI被视为第四次工业革命,正引发千行百业变革[2] - 甲骨文股价单日暴涨36%,市值暴增逾2400亿美元,源于与OpenAI签署五年期3000亿美元算力采购协议[2] - 全球AI服务器市场规模预计从2024年1251亿美元增至2025年1587亿美元,2028年有望达到2227亿美元[2] - 全球Agent市场规模已突破50亿美元,预计2030年将达到500亿美元[6] AI时代对数据库技术的新要求 - AI发展导致数据训练需求指数级攀升,数据类型从结构化向非结构化、半结构化混合转化[7] - 大模型训练需处理PB级甚至百PB级数据量,AI应用要求毫秒级响应速度[7] - 向量数据库因处理非结构化数据优势重新火热,2023年南大通用重新押注并持续迭代[7] - 传统业务叠加AI需要两个数据库,改造成本高[12] 南大通用的产品与技术布局 - 公司三大核心产品新增向量数据管理、存算分离和AI Native能力[4][8] - GBase 8c同时支持结构化数据和向量数据类型,用简单SQL完成关联查询[12] - GBase云原生数据库具备存算分离、serverless能力,解决AI代理并发性能瓶颈[12] - 推出智能运维平台,整合大数据分析、机器学习、生成式AI技术[12] 信创加速与国产替代机遇 - 国产化替代从外围系统向核心系统深入,包括银行账务核心系统、运营商计费系统等[9] - 未来两三年国产数据库将面临洗牌,产品能力、交付能力和运维能力成关键竞争因素[15] - 南大通用GBase数据库连续10年蝉联国产分析型第一[15] - IDC报告显示南大通用为中国数仓市场本地部署数据库TOP4、国产独立数据库第一[15] 仓湖一体技术优势 - 仓湖一体为AI提供统一、高效、可靠且低成本数据基石,解决数据孤岛问题[13] - 将数据湖低成本存储灵活性与数据仓库高性能管理能力结合[13] - 所有类型数据存储统一平台,特征工程一站式完成,保证数据一致性[13] - 强管理能力引入,如ACID事务支持、数据版本管理、元数据管理[14] 智能运维能力提升 - 智能运维工具5-10分钟完成上万实例健康检查,故障分析时间从3-4小时缩短至5分钟[15] - SQL优化正确率达到80%-85%,随学习数据积累帮助将越来越大[15] - AI能力嵌入数据库内部引擎,包括内置机器学习模型,降低数据搬运成本和延迟[14]
万字长文!RAG实战全解析:一年探索之路
自动驾驶之心· 2025-08-07 17:52
背景介绍 - RAG(检索增强生成)方法结合了检索模型和生成模型的能力,以提高生成文本的质量和相关性 [1] - 该方法由Meta在2020年提出,让语言模型能够获取内化知识之外的信息,并以更准确的方式回答问题 [1] - 在大模型时代,RAG用于解决幻觉问题、知识时效问题和超长文本问题等大模型本身的制约或不足 [1] RAG的挑战 - 主要面临三个方面的挑战:检索质量、增强过程和生成质量 [2] - 检索质量方面存在语义歧义、用户输入变复杂、文档切分和多模内容提取等挑战 [5] - 增强过程面临上下文集成、冗余和重复、排名和优先级等挑战 [5] - 生成质量方面存在过度依赖检索内容、无关性、毒性或偏见等问题 [5] 整体架构 产品架构 - 包含模型层、离线理解层、在线问答层和场景层四层 [11] - 模型层支持自研序列猴子、开源大模型和第三方模型,并优化跨语言Embedding模型 [11] - 离线理解层包括智能知识库和搜索增强模块,负责非结构化文本处理和检索精准度 [11] - 在线问答层支持多文档、多轮次、多模态及安全性与拒识等功能 [11] - 场景层针对不同行业特点预制多种场景类角色 [11] 技术架构 - 分为query理解、检索模型和生成模型三个主要组成部分 [10] - query理解模块包括query改写、扩写和意图识别等,旨在提高召回率 [12] - 检索模型从文档集或知识库中检索相关信息,使用信息检索或语义搜索技术 [12] - 生成模型根据Prompt或上下文生成新内容,包括chat系统和Prompt优化等 [13] Query理解 - 引入query理解模块解决用户query措辞不利于检索和生成结构化查询的问题 [14] - 意图识别模块利用LLM实现决策功能,可应用于选择器模块或查询引擎 [15] - query改写模块利用LLM重新措辞用户query,提高检索效果 [16] - HyDE技术生成假设答案并转换为嵌入,从数据库中检索最接近的实际文档 [17] - query扩写模块将复杂问题拆解为子问题,采用分而治之的方法处理 [22] - Step-Back Prompting通过抽象和推理两步处理复杂任务 [23] - CoVe技术通过验证和完善回答提高大型语言模型答案的可靠性 [25] - RAG-Fusion生成多个query并行执行搜索,使用倒数排名融合重新排序 [27] - ReAct将复杂查询分解成更简单的子查询,结合思维链提示和Action计划生成 [29][31] - query重构模块通过一次请求实现改写、拆解和拓展用户输入 [32] 检索模型 挑战 - 依赖于Embedding模型的向量化是否准确 [33] - 相关信息出现在输入上下文开头或结尾时性能最高,中间性能明显下降 [34] 架构 - 包括文档加载器、文本转换器、文本嵌入模型、向量数据库和索引等组件 [35][37] 文档加载器 - 从配置源加载文档数据,支持懒加载和多种来源如txt文件、网页和YouTube视频 [38] 文本转换器 - 将大型文档分割成较小块,适应模型上下文窗口 [39] - 递归分割文本保持相关文本片段在一起 [40] - 常见类型包括HTML、Markdown、Code、Token和Character等 [43] - 使用Chunkviz工具评估文本转换器工作情况 [44] 文本嵌入模型 - 创建文本的向量表示,捕捉语义并支持语义搜索 [45] - 应具备跨语种检索、长原文和短摘要关联、不同表述相同语义关联等能力 [45] 向量数据库 - 支持嵌入式的高效存储和搜索,检索与嵌入查询最相似的嵌入向量 [47] 索引 - 摘要索引将节点存储为顺序链,支持顺序遍历或基于关键词过滤 [51] - 树索引构建层级树状结构,父节点是子节点的摘要 [53] - 关键词表索引提取关键词并构建多对多映射 [55] - 向量索引利用文本嵌入模型将文本块映射成向量并存储在向量数据库中 [57] 排序和后处理 - 基于相似度分数、关键词、LLM重新排序或时间进行过滤和排序 [59] 生成模型 - 回复生成策略包括依次结合相关文本块修正回复或在Prompt中填充多个文本块 [66] - prompt拼接策略包括字符串提示和聊天提示 [61] - 字符串提示连接模板,聊天提示由消息列表组成 [62][63] 插件 - 基于混合演示检索的上下文学习方法融合文本检索和语义检索进行多路召回 [64] - 检索模块包括文本检索和语义检索,分别采用BM25和双塔模型 [70] - 重排模块使用倒序排序融合算法和两端填充排序策略 [71] - 生成模块设计prompt组装模块,融入长期和短期对话记录 [72] 引用或归因生成 - 归因让模型生成内容与参考信息对齐,提供证据来源确保信息准确性 [73] - 模型生成方法直接让模型生成归因信息,依赖模型能力 [75] - 动态计算方法在流式生成时匹配语义单元和参考源 [76] 评估 - Faithfulness评测生成的回答是否忠实于contexts,避免幻觉 [79] - Answer Relevance评测生成的答案是否解决实际问题 [79] - Context Relevance评测检索的上下文是否重点突出且少含无关信息 [79] - RGB基准研究RAG对大型语言模型的影响,分析噪声鲁棒性、拒答等能力 [77] - RAGAS框架对RAG pipeline进行无参考评估,考虑检索系统和LLM能力 [81] - LlamaIndex提供衡量生成结果质量和检索质量的模块 [81] 总结 - RAG技术需要不断实践和研究才能打磨出符合企业应用的精品 [82] - 本文总结了过去一年在RAG实践的关键模块,属于大纲式技术普及文章 [82]