多模态检索 - 财报，业绩电话会，研报，新闻

多模态检索

搜索文档

量子位· 2025-06-08 11:40

UNITE团队投稿量子位 | 公众号 QbitAI 多模态检索是信息理解与获取的关键技术，但其中的跨模态干扰问题一直是一大难题。可行的解决办法是构建一种统一的多模态表示方式，为此，来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE 。 UNITE的核心目标，就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。它从数据策划与训练机制两个关键视角出发，用对比学习的机制重新定义了统一多模态表示学习的范式。在细粒度检索、指令检索等多个评测中，UNITE框架都斩获了最佳成绩。给定一个批次中个query，每个query（）对应一个正样本和个负样本，构造相似度矩阵：模态感知对比学习，缓解跨模态干扰在多模态检索任务中，不同模态（文本、图像、视频）天然存在分布差异。如果在训练时将所有模态混合进行对比学习，会导致表示空间产生语义扭曲或干扰噪声，影响模型对各模态语义的准确建模。为了解决这一挑战，UNITE团队提出了 Modal-Aware Masked Contrastive Learning （MAMCL）这一对比学习机制，能显著缓解跨模态"相互干扰"。 | ...

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

量子位· 2025-03-06 16:29

文章核心观点智源研究院联合多所高校开发多模态向量模型BGE - VL，借助大规模合成数据MegaPairs训练，在多模态检索任务中取得最佳效果，MegaPairs数据具有优异可扩展性和卓越数据质量，BGE - VL模型性能表现优异 [1][2][7] MegaPairs构造 - 信息检索需满足多样化需求，现有多模态检索模型基于单一跨模态配对数据训练，难以处理复杂组合模态输入，以往多模态检索指令数据集依赖人工标注限制大规模多样化数据获取，智源BGE团队提出MegaPairs数据合成方法解决限制 [4] - MegaPairs从现有大规模图文语料库中挖掘并构造多模态检索指令数据集，构造分两个关键步骤，先挖掘多样图像对，再合成开放域检索指令，基于开源数据集和模型自动化构建和标注，可扩展性生成大规模、高质量且多样化数据集 [5][6] - MegaPairs结合多种模型在海量图文语料库中高效挖掘多模态三元组数据，算法能低成本持续生成多样化高质量数据，本次发布版本涵盖2600万条样本，仅需1/70数据量即可实现更优训练效果 [7] - MegaPairs合成超2600万条三元数据对，对每组挖掘的图像对数据选取其他相似图片作为难负例 [8] BGE - VL模型 - 基于MegaPairs数据集，智源BGE团队训练出3款不同尺寸多模态检索模型，仅用MegaPairs三元组数据训练就在多个任务上有领先性能优势 [9] - 在MMEB基准测试上，BGE - VL零样本性能表现优，MegaPairs未包含大部分任务类型数据却有良好泛化能力，有监督微调后平均性能指标比VLM2Vec (LLaVA - 1.6) 模型高9.1个百分点，在分布外数据集上平均表现比两版VLM2Vec分别高11.6%和7.1% [10][12] - 在组合图像检索评测集CIRCO上，BGE - VL各模型尺寸显著刷新现有基准，超越对比基线，BGE - VL - MLLM较之前SOTA模型提升8.1个百分点，BGE - VL - Base以不到1/50参数量超越大模型底座多模态检索器 [14] - 随着MegaPairs数据规模增加，BGE - VL模型性能增长，与Google MagicLens相比，MegaPairs仅需1/70数据规模即可实现显著性能优势 [15] 未来展望智源将继续探索MegaPairs与更丰富多模态检索场景结合，打造更全能通用多模态检索器 [17]