向量检索
搜索文档
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2026-01-08 13:58
文章核心观点 - 当前自动驾驶行业所宣称的“数据闭环”大多停留在算法团队内部的“小闭环”,距离能够“数据直接解决问题”的“大闭环”或“真闭环”仍有显著差距 [1] - 实现“真闭环”需要满足问题发现自动化、解决效果可量化可复盘、投入产出可评估等多层要求,而目前行业普遍存在被动闭环、归因困难、链路断裂、组织结构制约等典型断点 [4][5][7][18] - 一套有效的实践方案是:从量化真实世界的“体感指标”出发,通过轻量高召回的车端触发机制、代码级统一的触发与验证体系、结合大模型的自动问题分类与分发,构建一个可演进的数据闭环系统 [24][25][41][43] - 未来的发展方向在于通过端到端架构和闭环仿真/世界模型等技术,降低解决每个问题的边际成本,使数据驱动从口号变为可规模化复制的基础设施 [84][85][88] 行业现状:理想与现实之间的差距 - **理想中的“真闭环”定义**:至少需要满足三层:1) 问题发现自动化,系统能从海量数据中自动发现异常行为并形成数据集;2) 解决效果可量化、可复盘,能持续追踪问题频率是否下降、是否引入新问题;3) 投入产出可评估,能判断每次数据、算力、开发投入是否值得 [4][5][7] - **行业普遍实践**:多数厂商的“数据闭环”实质是“数据驱动的研发流程加一些自动化工具”,且局限在单个算法团队的“小闭环”视角 [8] - **典型小闭环流程**:线上触发/抽取 → 清洗与标注 → 训练/回归 → 上线与监控,这更多是模块级、算法视角的闭环,而非系统级闭环 [9][13] 实现“真闭环”的主要挑战与断点 - **起点被动**:大量问题仍依赖司机反馈、运营投诉、领导试驾或人工刷录像等被动方式发现,是“问题驱动数据”,而非“数据自动发现问题” [10] - **归因困难**:同一现象(如急刹)背后常是感知、预测、规划、控制等多模块高度耦合的原因,缺乏体系化诊断工具,导致责任难以界定,效率低下 [12][15] - **链路不完整**:许多团队的闭环止步于“数据到模型”,即关注离线技术指标提升,但未追踪是否解决了哪个具体的线上真实业务问题 [16] - **自动化程度有限**:从问题发现、标注、训练、评估到上线的全流程中,人工干预环节仍占大头,系统更像高度自动化的生产线,而非可自我决策的“自愈系统” [17][21] - **组织架构制约**:感知、预测、规划、控制、地图等团队以及Tier1、整车厂等各方边界分明,OKR各异,导致系统级闭环被组织结构天然拆散 [18][22] 一套具体的数据闭环实践方案 - **核心理念**:从“体感指标”出发,用Trigger(触发器)把世界离散成token,再用大模型(LLM)做分类和路由,最后用统一代码串起“发现”和“验证” [25] - **量化真实痛点**:将急刹、接管、大幅转向等用户有感的“体感指标”作为第一公民,要求100%记录,并沉淀为“每万公里急刹车率”等可统计指标 [26][27][28] - **车端轻量触发机制**:在算力受限(如单颗Orin X)条件下,设计高召回、低开销的micro log机制,一旦发生疑似事件(如急刹),即打包关键状态信息上传,宁可多报,不能漏报 [30][32][33] - **云端验证与数据拉取**:云端对micro log进行规则/模型过滤,确认可信后,再下发任务拉取包含更多中间结果和短视频的mini log,实现按需、分层的数据上传,避免带宽浪费 [34][35][38][39] - **代码级统一**:将定义问题的Trigger逻辑代码在车端实时挖掘、云端历史数据挖掘、仿真验证评价三个场景中统一,确保从发现问题到验证修复的语义一致,无实现偏差 [41] - **问题自动分发体系**:将Trigger体系视为领域专用的tokenizer,将原始数据流转化为高层语义事件序列(token),再文本化后输入大模型,由大模型作为时序分类器进行根因归因和团队路由 [43][45][47] - **持续学习闭环**:利用研发人员在问题系统中真实的“改派”行为作为弱监督标签,持续回流训练大模型分类器,使其在真实业务分布下越用越准 [49] - **降低规则编写门槛**:所有Trigger逻辑用纯Python实现并统一接口,配合详细的文档和示例,并利用大模型辅助,让测试、运营等非算法人员也能用自然语言描述需求并生成可微调的Trigger代码 [50][54][55] - **量产环境解耦**:将数据挖掘Trigger设计为可云端下发的“配置”或运行在车端沙箱中的脚本,使其与主算法版本解耦,能灵活、快速地响应突发场景(如大雪天)的数据挖掘需求,而不影响系统安全与稳定性 [56][57] 数据管理与使用的关键见解 - **区分标签类型**:严格区分“世界标签”(如天气、道路类型、交通参与者数量)和“算法标签”(如感知框抖动、规划重规划频率),前者用于精细场景筛选,后者用于算法归因调参 [60][61] - **向量检索的正确用法**:向量检索适合作为“精筛”工具,而非“粗筛”主力面对海量数据时,应先用结构化标签规则过滤掉80%-90%的无关系数据,缩小范围后,再用向量检索进行语义级细筛,以提升效率和精度 [62][63][64] - **生成式/仿真数据的定位**:主要用于补充现实中难以凑齐的长尾场景训练数据(如临时路障、路面坑洼),以扩大模型“见世面”但最终用于评测和放行的评测集必须坚持使用真实数据,因为无法完全模拟真实世界 [66][67][69] - **监控模型副作用**:在引入生成数据提升召回时,需警惕误检(FP)在未知场景下恶化的风险采用对两个版本进行逐帧全量结果差分的方法,系统性监控差异模式,评估“涨得干不干净”,而不仅仅看召回率涨幅 [70][74][77] 未来展望与演进方向 - **当前本质**:现有体系更接近一个“Bug-Driven开发体系”,核心是更快、更准、更系统地发现、量化和跟踪具体问题(bug) [77][80] - **现存卡口**:当前主要瓶颈已从“发现问题”侧,转移到“谁来解决问题、怎么解决问题”侧,受限于人工标注成本、仿真验证的可信度以及研发人员带宽等刚性约束 [81][82][86] - **积极方向**:端到端/模仿学习架构的兴起,通过直接对齐人类驾驶行为,绕开了中间真值难标的问题;同时,闭环仿真/世界模型的快速发展,旨在让“在仿真里充分暴露问题、充分迭代”更接近真实世界 [84][87] - **最终目标**:通过降低解决每个问题的边际成本,并结合在Trigger体系、自动分类等工程实践上的积累,使“数据驱动”从口号变为一套能持续运行、可核算、能规模化复制的基础设施 [85][88]
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
量子位· 2025-12-25 19:51
文章核心观点 - 当前将多模态数据纳入RAG和Agent框架时,普遍依赖的embedding→向量检索→下游任务流程存在未被正确认知的陷阱,行业认为向量检索方法已标准化并倾向于无脑使用HNSW,但事实并非如此 [1] - 以真实下游语义任务为黄金基准进行评估,HNSW在许多任务上表现不佳,表明RAG在多模态领域远未达到标准化程度,过去的评估体系存在严重偏差 [1] - 研究团队推出的新基准IceBerg,以下游语义任务而非传统的Recall-QPS为基准,其发现足以颠覆过去五年的行业认知,引发向量检索算法排名的大洗牌 [1] 认知偏差:距离度量与语义相似度 - 存在一个根本性的认知偏差:距离度量并不等同于语义相似度 [3] - 在大规模人脸验证数据集Glink360K上,人脸识别准确率在按距离度量计算的Recall达到99%之前就已饱和,且基于图的SOTA算法NSG在距离度量recall上优于基于哈希的RaBitQ,但在下游人脸识别准确率上却一致弱于RaBitQ,揭示了评价体系失准和“产能过剩”问题 [5] - 针对同一embedding,不同度量空间对下游任务效果影响巨大,例如使用EVA02图片encoder时,欧氏距离可达80%+的语义识别精度,而内积度量则始终停留在1%附近,表明度量空间选择存在巨大“陷阱” [6] 端到端信息损失漏斗模型 - 为解释向量检索“真实”效果与行业认知的偏差,提出了一个端到端的信息损失漏斗模型,描述了信息逐层损失的过程 [7] - **阶段一:表征模型Capacity瓶颈**:表征学习模型的能力上限决定了embedding的语义表达力和质量 [9][10] - 影响模型表达力的因素包括:1) 模型的泛化误差,即模型在测试集上表现通常逊于训练集,且在训练数据上也常无法达到100%准确 [11];2) 模型的学习目标,表征学习常不等于度量学习,模型学习的是语义相似度,其损失函数不一定鼓励“语义相近样本在度量空间中更接近” [12] - 这些原因导致数据通过模型转为embedding时,会产生大量信息损失,特别是在语义和度量对等性问题上 [13] - **阶段二:度量选择**:对于一些生成式表征模型,如某些auto encoder pretrain model,没有对度量空间的明确约束,此时选择欧氏距离还是内积距离会对结果产生巨大影响 [14][15] - **阶段三:向量检索方法选择**:向量检索方法主要分为基于空间切分(量化)和基于图结构索引两大类,不同方法对不同数据分布有不同“亲和度”,因为它们都以近似手段最小化搜索空间,但选择性忽略的数据不同,导致下游任务表现差异 [16][17] IceBerg基准测试结果与发现 - **向量检索算法排名大洗牌**:IceBerg Bench覆盖不同模态、任务和embedding model,以下游任务为中心进行排名,结果显示HNSW并非“常胜将军”,不同交叉组合下有不同的方法胜出 [18][19] - 例如,在ImageNet图片识别任务上,欧式距离和内积距离上的最优算法(HNSW/ScaNN)均未成为下游任务的赢家,胜出的是RaBitQ [20] - **新手玩家利器:自动化算法选型**:IceBench提供了自动化算法检测方案,通过分析数据分布的统计信号(如聚类程度、向量方向分散度)构建可解释的“决策树”,帮助用户无需暴力测试即可选对方法 [21][23] - 该工具将保持对最前沿encoder的追踪,实时更新算法选择建议 [24] 行业影响与未来方向 - IceBench首次从端到端的价值体系重新度量了SOTA向量检索方法的真实能力,并暴露了向量数据库领域海平面之下的认知陷阱 [25] - 研究团队呼吁未来的向量检索研究应更深入RAG、Agent等下游应用语境,关注度量-任务匹配度、算法-数据分布兼容性,乃至跨度量/多度量/多向量的统一向量检索算法,以真正实现RAG的标准化 [25]
微软研究院路保同:用向量检索重塑模型注意力——Attention
36氪· 2025-11-17 16:02
技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention,核心观点是每个Query实际上只需要和一小部分Key进行强交互即可,注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径,通过近似最近邻检索找出对当前Query最相关的少量Key(如只找前1%),实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制:GPU负责保留少量"可预测"的局部KV缓存,而CPU以检索方式动态调用大规模KV存储,两路计算独立并行,最终融合结果[7][22] - 整个机制无需对模型进行重新训练,以可插拔模块形式接入现有Transformer,仅修改注意力层的前向逻辑,即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090(24GB)上,8B级模型可在128K上下文下稳定生成,每token耗时约0.188秒,且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐,并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下,Retrieval Attention的每token延迟为0.188秒,显著优于Full attention的43.927秒,且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例(约1–3%)实现高召回率,使显存占用降至原来的约1/10,同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题,将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中,让模型在生成时只访问"最相关"的信息,通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统,模型每生成一个新token都需要在已有语义空间里"查询"最相关信息,这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库",使模型能主动查询、筛选、调用真正需要的信息,而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力,使其能在极大范围内保持语义一致性,从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only",而应是一种充分利用CPU内存优势的混合架构,让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式,未来可能出现具备自主知识管理能力的AI系统,能长期保留信息、持续学习,实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合,形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]
什么是倒排索引(Inverted Index)?
搜狐财经· 2025-09-04 12:14
倒排索引技术概述 - 倒排索引是一种将词项映射到包含该词项文档列表的索引结构 与传统正向索引相反 通过关键词快速定位文档[1] - 构建过程包括文本预处理 词典生成和倒排记录表创建三个核心步骤[1] - 适用于全文检索 搜索引擎和大规模数据分析场景[1] 技术应用领域 - 广泛应用于全文搜索引擎 实现毫秒级文本检索响应 如Elasticsearch系统[3] - 应用于日志分析系统快速定位错误信息 以及推荐系统构建用户画像和内容标签关联[3] - 在人工智能领域与向量检索技术结合推动RAG技术发展 支持精确匹配和语义相似性搜索[3] StarRocks技术优势 - 作为新一代实时分析数据库 原生支持全文检索功能 通过优化倒排索引结构实现高效文本查询[5] - 能够无缝整合传统倒排索引与向量相似性搜索 为RAG应用提供统一数据底座[5] 镜舟数据库增强功能 - 作为StarRocks企业版本 支持分布式倒排索引构建 能处理PB级数据规模索引任务[8] - 通过智能压缩算法和并行处理技术 在保持查询性能同时显著降低存储成本[8] 腾讯实际应用案例 - 腾讯选择StarRocks构建千万级向量数据检索系统 优化倒排索引结构和查询算法[8] - 系统保持毫秒级响应时间同时支持复杂多维度查询条件 解决原有系统性能瓶颈[8] - 实际部署显示查询响应时间缩短80%以上 支持更大规模数据处理需求[8] 技术融合趋势 - 现代数据库系统探索传统倒排索引与向量检索技术相结合的创新方案[3] - 向量索引支持语义相似性搜索 倒排索引擅长精确匹配 结合满足精确检索和模糊匹配需求[3] - 混合检索方式在百万级文档规模下仍保持出色查询性能[3]
只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
量子位· 2025-06-20 18:31
核心观点 - 浙江大学团队开源新方法PSP,通过修改两行代码使RAG向量检索效率提升30%,适用于多种任务并支持十亿、百亿级别大规模应用[1] - PSP突破最大内积检索难题,解决传统方法因不满足三角关系导致的失效问题[3][4] - 该方法设置提前停止策略避免算力浪费,显著提升搜索速度[5] 技术背景 - 向量检索是AI产品核心技术组件,但主流算法如HNSW、NSG均基于欧式空间设计,导致语义相关性检索出现偏差[6][7] - 最大内积检索领域长期缺乏现象级算法,现有方法存在数据集适应性差的问题[7] - 内积空间因缺乏"三角不等式"属性,难以实现高效检索空间裁剪[9][10] 技术突破 - PSP证明在欧式距离图索引上通过贪心算法可找到全局最优最大内积解[10] - 仅需修改候选点队列的堆设定和距离度量两处代码即可适配现有欧式算法[11][13] - 搜索行为分析显示最大内积解多位于数据"外围",PSP据此优化起始点分布[16][17] 性能优化 - 采用决策树实现自适应早停策略,通过四类特征判断最优停止时机[19][20] - 决策树高度经剪枝控制在较低水平,可高效嵌入搜索代码[20] 实测表现 - 在8个高维数据集测试中,PSP检索速度(QPS)显著优于现有方法,在MNIST数据上超第二名4倍[21][23] - 支持1536-3072维高维向量,最大测试数据集达1亿规模(Commerce100M)[21] - 在"文搜文"、"图搜图"等多模态任务中展现强大泛化能力[25] - 时间复杂度呈log(N)增长,具备十亿级数据高效检索潜力[26]