多模态RAG
搜索文档
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
量子位· 2025-12-25 19:51
文章核心观点 - 当前将多模态数据纳入RAG和Agent框架时,普遍依赖的embedding→向量检索→下游任务流程存在未被正确认知的陷阱,行业认为向量检索方法已标准化并倾向于无脑使用HNSW,但事实并非如此 [1] - 以真实下游语义任务为黄金基准进行评估,HNSW在许多任务上表现不佳,表明RAG在多模态领域远未达到标准化程度,过去的评估体系存在严重偏差 [1] - 研究团队推出的新基准IceBerg,以下游语义任务而非传统的Recall-QPS为基准,其发现足以颠覆过去五年的行业认知,引发向量检索算法排名的大洗牌 [1] 认知偏差:距离度量与语义相似度 - 存在一个根本性的认知偏差:距离度量并不等同于语义相似度 [3] - 在大规模人脸验证数据集Glink360K上,人脸识别准确率在按距离度量计算的Recall达到99%之前就已饱和,且基于图的SOTA算法NSG在距离度量recall上优于基于哈希的RaBitQ,但在下游人脸识别准确率上却一致弱于RaBitQ,揭示了评价体系失准和“产能过剩”问题 [5] - 针对同一embedding,不同度量空间对下游任务效果影响巨大,例如使用EVA02图片encoder时,欧氏距离可达80%+的语义识别精度,而内积度量则始终停留在1%附近,表明度量空间选择存在巨大“陷阱” [6] 端到端信息损失漏斗模型 - 为解释向量检索“真实”效果与行业认知的偏差,提出了一个端到端的信息损失漏斗模型,描述了信息逐层损失的过程 [7] - **阶段一:表征模型Capacity瓶颈**:表征学习模型的能力上限决定了embedding的语义表达力和质量 [9][10] - 影响模型表达力的因素包括:1) 模型的泛化误差,即模型在测试集上表现通常逊于训练集,且在训练数据上也常无法达到100%准确 [11];2) 模型的学习目标,表征学习常不等于度量学习,模型学习的是语义相似度,其损失函数不一定鼓励“语义相近样本在度量空间中更接近” [12] - 这些原因导致数据通过模型转为embedding时,会产生大量信息损失,特别是在语义和度量对等性问题上 [13] - **阶段二:度量选择**:对于一些生成式表征模型,如某些auto encoder pretrain model,没有对度量空间的明确约束,此时选择欧氏距离还是内积距离会对结果产生巨大影响 [14][15] - **阶段三:向量检索方法选择**:向量检索方法主要分为基于空间切分(量化)和基于图结构索引两大类,不同方法对不同数据分布有不同“亲和度”,因为它们都以近似手段最小化搜索空间,但选择性忽略的数据不同,导致下游任务表现差异 [16][17] IceBerg基准测试结果与发现 - **向量检索算法排名大洗牌**:IceBerg Bench覆盖不同模态、任务和embedding model,以下游任务为中心进行排名,结果显示HNSW并非“常胜将军”,不同交叉组合下有不同的方法胜出 [18][19] - 例如,在ImageNet图片识别任务上,欧式距离和内积距离上的最优算法(HNSW/ScaNN)均未成为下游任务的赢家,胜出的是RaBitQ [20] - **新手玩家利器:自动化算法选型**:IceBench提供了自动化算法检测方案,通过分析数据分布的统计信号(如聚类程度、向量方向分散度)构建可解释的“决策树”,帮助用户无需暴力测试即可选对方法 [21][23] - 该工具将保持对最前沿encoder的追踪,实时更新算法选择建议 [24] 行业影响与未来方向 - IceBench首次从端到端的价值体系重新度量了SOTA向量检索方法的真实能力,并暴露了向量数据库领域海平面之下的认知陷阱 [25] - 研究团队呼吁未来的向量检索研究应更深入RAG、Agent等下游应用语境,关注度量-任务匹配度、算法-数据分布兼容性,乃至跨度量/多度量/多向量的统一向量检索算法,以真正实现RAG的标准化 [25]