Workflow
向量检索
icon
搜索文档
微软研究院路保同:用向量检索重塑模型注意力——Attention
36氪· 2025-11-17 16:02
技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention,核心观点是每个Query实际上只需要和一小部分Key进行强交互即可,注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径,通过近似最近邻检索找出对当前Query最相关的少量Key(如只找前1%),实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制:GPU负责保留少量"可预测"的局部KV缓存,而CPU以检索方式动态调用大规模KV存储,两路计算独立并行,最终融合结果[7][22] - 整个机制无需对模型进行重新训练,以可插拔模块形式接入现有Transformer,仅修改注意力层的前向逻辑,即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090(24GB)上,8B级模型可在128K上下文下稳定生成,每token耗时约0.188秒,且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐,并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下,Retrieval Attention的每token延迟为0.188秒,显著优于Full attention的43.927秒,且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例(约1–3%)实现高召回率,使显存占用降至原来的约1/10,同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题,将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中,让模型在生成时只访问"最相关"的信息,通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统,模型每生成一个新token都需要在已有语义空间里"查询"最相关信息,这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库",使模型能主动查询、筛选、调用真正需要的信息,而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力,使其能在极大范围内保持语义一致性,从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only",而应是一种充分利用CPU内存优势的混合架构,让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式,未来可能出现具备自主知识管理能力的AI系统,能长期保留信息、持续学习,实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合,形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]
什么是倒排索引(Inverted Index)?
搜狐财经· 2025-09-04 12:14
倒排索引技术概述 - 倒排索引是一种将词项映射到包含该词项文档列表的索引结构 与传统正向索引相反 通过关键词快速定位文档[1] - 构建过程包括文本预处理 词典生成和倒排记录表创建三个核心步骤[1] - 适用于全文检索 搜索引擎和大规模数据分析场景[1] 技术应用领域 - 广泛应用于全文搜索引擎 实现毫秒级文本检索响应 如Elasticsearch系统[3] - 应用于日志分析系统快速定位错误信息 以及推荐系统构建用户画像和内容标签关联[3] - 在人工智能领域与向量检索技术结合推动RAG技术发展 支持精确匹配和语义相似性搜索[3] StarRocks技术优势 - 作为新一代实时分析数据库 原生支持全文检索功能 通过优化倒排索引结构实现高效文本查询[5] - 能够无缝整合传统倒排索引与向量相似性搜索 为RAG应用提供统一数据底座[5] 镜舟数据库增强功能 - 作为StarRocks企业版本 支持分布式倒排索引构建 能处理PB级数据规模索引任务[8] - 通过智能压缩算法和并行处理技术 在保持查询性能同时显著降低存储成本[8] 腾讯实际应用案例 - 腾讯选择StarRocks构建千万级向量数据检索系统 优化倒排索引结构和查询算法[8] - 系统保持毫秒级响应时间同时支持复杂多维度查询条件 解决原有系统性能瓶颈[8] - 实际部署显示查询响应时间缩短80%以上 支持更大规模数据处理需求[8] 技术融合趋势 - 现代数据库系统探索传统倒排索引与向量检索技术相结合的创新方案[3] - 向量索引支持语义相似性搜索 倒排索引擅长精确匹配 结合满足精确检索和模糊匹配需求[3] - 混合检索方式在百万级文档规模下仍保持出色查询性能[3]
只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
量子位· 2025-06-20 18:31
核心观点 - 浙江大学团队开源新方法PSP,通过修改两行代码使RAG向量检索效率提升30%,适用于多种任务并支持十亿、百亿级别大规模应用[1] - PSP突破最大内积检索难题,解决传统方法因不满足三角关系导致的失效问题[3][4] - 该方法设置提前停止策略避免算力浪费,显著提升搜索速度[5] 技术背景 - 向量检索是AI产品核心技术组件,但主流算法如HNSW、NSG均基于欧式空间设计,导致语义相关性检索出现偏差[6][7] - 最大内积检索领域长期缺乏现象级算法,现有方法存在数据集适应性差的问题[7] - 内积空间因缺乏"三角不等式"属性,难以实现高效检索空间裁剪[9][10] 技术突破 - PSP证明在欧式距离图索引上通过贪心算法可找到全局最优最大内积解[10] - 仅需修改候选点队列的堆设定和距离度量两处代码即可适配现有欧式算法[11][13] - 搜索行为分析显示最大内积解多位于数据"外围",PSP据此优化起始点分布[16][17] 性能优化 - 采用决策树实现自适应早停策略,通过四类特征判断最优停止时机[19][20] - 决策树高度经剪枝控制在较低水平,可高效嵌入搜索代码[20] 实测表现 - 在8个高维数据集测试中,PSP检索速度(QPS)显著优于现有方法,在MNIST数据上超第二名4倍[21][23] - 支持1536-3072维高维向量,最大测试数据集达1亿规模(Commerce100M)[21] - 在"文搜文"、"图搜图"等多模态任务中展现强大泛化能力[25] - 时间复杂度呈log(N)增长,具备十亿级数据高效检索潜力[26]