Workflow
多模态检索
icon
搜索文档
让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral
量子位· 2025-12-01 13:45
技术突破与核心创新 - 中国联通数据科学与人工智能研究院团队提出HiMo-CLIP模型,成功突破现有CLIP模型在处理长文本时性能下降的局限[2][3] - 模型核心创新在于建模"语义层级"与"语义单调性",使模型能自动捕捉当前语境下的语义差异点,无需改变编码器结构[2] - 该工作解决了视觉-语言对齐中长期被忽视的结构化问题,在长文本和组合性文本检索上达到SOTA水平,同时兼顾短文本性能[3][4] 现有技术痛点 - 现有CLIP等模型将文本视为扁平序列,忽略语言内在层级结构,导致文本描述越详细,其与图像的匹配度(对齐分数)反而可能下降[6] - 当文本从简短描述扩展为包含大量细节的长文本时,细节信息淹没核心语义,模型无法在复杂上下文中捕捉最具区分度的特征[6] - 如图1所示,多数SOTA模型在文本变长时对齐分数下降,而HiMo-CLIP(绿勾)分数稳步提升,例如HiMo-CLIP分数从0.242升至0.252,而CLIP从0.290降至0.219[9] HiMo-CLIP方法框架 - 框架包含两个核心组件:层级分解模块(HiDe)和单调性感知对比损失(MoLo)[10] - HiDe模块利用Batch内的PCA动态提取最具区分度的语义成分,自适应构建语义层级,无需人工干预[12][15] - MoLo损失函数强制模型同时对齐"全量文本"和"语义成分",其公式为MoLo=InfoNCE(f1, feat)+λ*InfoNCE(f2, feat),实现单调性约束[12][17] 性能优势与实验结果 - 在长文本检索任务中,HiMo-CLIP使用ViT-L/14骨干网络和仅1M训练数据,在Urban1k数据集上取得I2T/T2I 93.0/93.1的分数,优于使用400M数据的CLIP(68.7/52.8)和使用100M数据的LoTLIP等方法[20] - 在短文本检索任务中,HiMo-CLIP在Flickr30k数据集上取得I2T/T2I 92.5/78.2的分数,优于使用400M数据的CLIP(86.1/66.0)[21] - 在自建深度层级数据集HiMo-Docci上,HiMo-CLIP保持了极高的单调性相关系数0.88,远超对比方法,其对齐分数随文本描述完整度增加呈现完美上升趋势[22][25] 技术应用价值 - HiMo-CLIP具备高数据效率,仅使用1M训练数据就击败了使用100M甚至10B数据的方法,例如在长文本检索上优于使用10B数据的SigLIP[17][20] - 模型能动态提取机器认为的差异点,消除了人类语言和机器理解之间的隔阂,训练长文本的同时自动获得短文本匹配能力[19] - 该技术让多模态模型的对齐机制更符合人类认知逻辑,为未来更复杂的多模态理解任务指明方向[4]
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral
量子位· 2025-11-15 13:00
UniME-V2团队 投稿 量子位 | 公众号 QbitAI 统一多模态嵌入模型 是众多任务的技术基石。 当前主流方法通常采用批内负例挖掘策略,通过计算查询-候选对的相似度进行训练。 通过将模型相似度矩阵与软语义匹配分数矩阵对齐,使模型真正学会辨析候选样本间的语义差异,显著提升判别能力。 为进一步提升性能,团队基于挖掘的困难负例训练出重排序模型UniME-V2-Reranker,采用配对与列表联合优化策略。 以匹配分数为依据实现精准困难负例挖掘,有效规避错误负例干扰 确保筛选出的困难负例兼具多样性与高质量特性 通过软标签机制打破传统一对一的刚性映射约束 但这类方法存在明显局限: 难以捕捉候选样本间细微的语义差异,负例样本多样性不足,且模型在区分错误负例与困难负例时的判别能力有 限。 针对这些问题,团队提出全新解决方案——基于多模态大模型语义理解能力的 统一多模态嵌入模型 UniME-V2。 该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入"MLLM-as-a-Judge"机制:利用MLLM对查询-候选对进行语义对齐评估, 生成软语义匹配分数。 这一设计带来三重突破: 图1 UniME-V2与以往方法 ...
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
量子位· 2025-06-08 11:40
核心技术框架与目标 - 构建名为UNITE的多模态统一嵌入框架,旨在解决多模态检索中的跨模态干扰问题 [2][3] - 核心目标是打造一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器 [3] - 从数据策划与训练机制两个关键视角出发,通过对比学习重新定义统一多模态表示学习的范式 [4] 核心技术创新:模态感知掩码对比学习 - 提出模态感知掩码对比学习机制,以缓解不同模态混合训练导致的语义扭曲或干扰噪声 [7][8] - 核心思想是模态掩码约束,仅在与当前查询目标模态一致的负样本中进行对比,避免模态间的错误竞争 [11][15] - 通过构造模态感知掩码相似度矩阵,确保在计算损失时仅考虑模态一致的样本 [14][16] 两阶段训练方案 - 采用“检索适应 + 指令微调”的两阶段训练方案,以平衡模型的泛化能力与判别能力 [17] - 检索适应阶段使用多模态数据训练基本检索能力,并引入高粒度视频-文本数据提升细粒度区分能力 [17] - 指令微调阶段基于复杂多模态指令任务训练,增强模型的指令遵循能力和扩展性 [17] 图像-文本检索性能 - 在ShareGPT4V数据集上,UNITE 7B模型在文本到图像检索任务中达到93.3分,图像到文本检索任务中达到93.2分 [19] - 在Urban1K数据集上,UNITE 7B模型在文本到图像和图像到文本检索任务中分别达到95.5分和95.6分 [19] - 在DOCCI数据集上,UNITE 7B模型在文本到图像和图像到文本检索任务中分别达到87.2分和85.8分 [19] 视频-文本检索性能 - 在CaReBench基准的General子任务中,UNITE 7B模型在文本到视频检索的R@1指标达到86.0分,视频到文本检索的R@1指标达到86.9分 [22] - 在Spatial子任务中,UNITE 7B模型在文本到视频和视频到文本检索的R@1指标分别达到86.5分和84.8分 [22] - 在Temporal子任务中,UNITE 7B模型在文本到视频和视频到文本检索的R@1指标分别达到52.4分和55.4分 [22] 指令检索与综合评估性能 - 在涵盖分类、VQA、检索、定位四类任务的MMEB Benchmark中,UNITE 7B模型达到70.3的平均分,超越更大规模的模型 [23][25] - 在合成视频检索任务CoVR上,UNITE 2B和7B模型分别达到69.1和72.5分,显著领先于现有SOTA模型的60.1分 [23][24] - 在标准跨模态检索任务上,UNITE 7B在Flickr30K的文本到图像检索R@1达到86.1分,图像到文本检索R@1达到94.4分 [26][27] 关键数据发现 - 视频-文本对数据在所有配置中表现最为突出,不仅在视频检索任务中领先,甚至在图文检索任务中也超越基于图像-文本对训练的模型 [29] - 复杂检索指令跟随类任务更依赖文本主导的数据支撑,Text–Text数据提升语言理解能力,Text–Image数据提供精准的视觉语义映射 [30] - 在“检索适应”阶段直接融合细粒度视频-文本样本,能带来整体性能最优解,相比传统做法更加有效且高效 [30]
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
量子位· 2025-03-06 16:29
文章核心观点 智源研究院联合多所高校开发多模态向量模型BGE - VL,借助大规模合成数据MegaPairs训练,在多模态检索任务中取得最佳效果,MegaPairs数据具有优异可扩展性和卓越数据质量,BGE - VL模型性能表现优异 [1][2][7] MegaPairs构造 - 信息检索需满足多样化需求,现有多模态检索模型基于单一跨模态配对数据训练,难以处理复杂组合模态输入,以往多模态检索指令数据集依赖人工标注限制大规模多样化数据获取,智源BGE团队提出MegaPairs数据合成方法解决限制 [4] - MegaPairs从现有大规模图文语料库中挖掘并构造多模态检索指令数据集,构造分两个关键步骤,先挖掘多样图像对,再合成开放域检索指令,基于开源数据集和模型自动化构建和标注,可扩展性生成大规模、高质量且多样化数据集 [5][6] - MegaPairs结合多种模型在海量图文语料库中高效挖掘多模态三元组数据,算法能低成本持续生成多样化高质量数据,本次发布版本涵盖2600万条样本,仅需1/70数据量即可实现更优训练效果 [7] - MegaPairs合成超2600万条三元数据对,对每组挖掘的图像对数据选取其他相似图片作为难负例 [8] BGE - VL模型 - 基于MegaPairs数据集,智源BGE团队训练出3款不同尺寸多模态检索模型,仅用MegaPairs三元组数据训练就在多个任务上有领先性能优势 [9] - 在MMEB基准测试上,BGE - VL零样本性能表现优,MegaPairs未包含大部分任务类型数据却有良好泛化能力,有监督微调后平均性能指标比VLM2Vec (LLaVA - 1.6) 模型高9.1个百分点,在分布外数据集上平均表现比两版VLM2Vec分别高11.6%和7.1% [10][12] - 在组合图像检索评测集CIRCO上,BGE - VL各模型尺寸显著刷新现有基准,超越对比基线,BGE - VL - MLLM较之前SOTA模型提升8.1个百分点,BGE - VL - Base以不到1/50参数量超越大模型底座多模态检索器 [14] - 随着MegaPairs数据规模增加,BGE - VL模型性能增长,与Google MagicLens相比,MegaPairs仅需1/70数据规模即可实现显著性能优势 [15] 未来展望 智源将继续探索MegaPairs与更丰富多模态检索场景结合,打造更全能通用多模态检索器 [17]