Workflow
软标签机制
icon
搜索文档
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral
量子位· 2025-11-15 13:00
文章核心观点 - 团队提出了一种名为UniME-V2的统一多模态嵌入模型,其核心创新在于利用多模态大模型(MLLM)的深层语义理解能力,通过“MLLM-as-a-Judge”机制生成软语义匹配分数,以精准挖掘高质量、多样化的困难负例,并以此指导模型训练,从而显著提升模型在多模态检索、跨模态检索及组合理解等任务上的判别能力和性能 [3][4][9] 方法创新 - **核心机制**:提出“MLLM-as-a-Judge”机制,利用MLLM评估查询-候选对的语义对齐性,生成软语义匹配分数,以指导困难负例挖掘和模型训练 [3][10][14] - **困难负例挖掘流程**:首先使用现有模型(如VLM2Vec)进行全局检索,为每个查询获取前50个相关候选作为潜在困难负例集;随后利用MLLM计算语义匹配分数进行精炼,通过设定阈值排除错误负例,并采用间隔采样策略确保负例的多样性和高质量 [13][18][19][21] - **训练框架**:UniME-V2采用基于分布对齐的框架,将模型计算的相似度矩阵与MLLM生成的软语义匹配分数矩阵对齐,使用JS散度作为损失函数,使模型学会辨析候选间的细微语义差异 [5][27][29] - **重排序模型**:进一步提出UniME-V2-Reranker,采用配对与列表联合优化策略,利用挖掘的困难负例进行训练,以提升基于初始嵌入的检索精度 [6][30] 性能表现 - **多模态检索(MMEB基准)**:UniME-V2在各种基础模型上均实现性能提升。基于Qwen2-VL-2B和7B模型时,比VLM2Vec分别高出3.5%和2.2%;基于LLaVA-OneVision-7B时,比之前的最先进模型(如QQMM、LLaVE和UniME)提高了0.5%-0.9%,并在分布外数据集上获得66.7分,展现了鲁棒性和卓越的迁移能力 [35][36][37][38] - **跨模态检索(零样本)**: - **短描述任务**:在Flickr30K和MS-COCO的**图像到文本检索**任务中,比UniME性能提升2.2%至9.7% [41] - **长描述任务**:在ShareGPT4V和Urban1K上取得显著改进,得益于增强的区分能力和丰富语义内容 [42] - **组合理解任务**:在SugarCrepe数据集上,UniME-V2表现卓越。基于Qwen2-VL-2B时,比UniME性能提升5.3%、6.0%、4.5%;模型扩展至7B后,性能进一步提升9.0%、9.2%、9.2%。与EVA-CLIP-8B相比,也实现了2.7%、3.4%、3.8%的改进 [45][46][47][48] - **重排序性能**:UniME-V2-Reranker在多个下游任务上表现优于基线模型LamRA。使用UniME-V2 (Qwen2-VL-2B) 检索时,重排后性能提升;在仅使用0.6M数据(LamRA使用1.1M)的情况下,结果更优。使用UniME-V2 (Qwen2-VL-7B) 检索时,UniME-V2-Reranker在四个任务上分别比LamRA获得0.5%、0.4%、0.3%和7.4%的性能提升,尤其在组合理解检索任务中优势显著 [50][51][52][53]