多模态检索

搜索文档
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
量子位· 2025-06-08 11:40
UNITE团队 投稿 量子位 | 公众号 QbitAI 多模态检索是信息理解与获取的关键技术,但其中的 跨模态干扰 问题一直是一大难题。 可行的解决办法是 构建一种统一的多模态表示方式 ,为此,来自快手与东北大学的研究人员推出了 多模态统一嵌入框架——UNITE 。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。 它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。 在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。 给定一个批次中 个query,每个query( )对应一个正样本 和 个负样本,构造相似度矩阵: 模态感知对比学习,缓解跨模态干扰 在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。 如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。 为了解决这一挑战,UNITE团队提出了 Modal-Aware Masked Contrastive Learning (MAMCL)这一对比学习机制,能显著缓解跨模 态"相互干扰"。 | ...
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
2024年伊始,我们还在为大模型的"百亿参数竞赛"惊叹,转眼间,"小而强大"的多模态架构已如雨后春笋般涌现。 从Meta Chameleon到Qwen2.5-Omni,从DeepSeek Janus-Pro再到Gemma 3,新一代模型不仅参数更小、推理更强,还涌现出如多模态推理、智能体能力、长视频理解等 突破性进展。与此同时,"多模态检索增强生成(RAG)" "多模态智能体"等全新范式也初具雏形。 每一次模型发布、每一个技术节点,都在不断刷新我们对"视觉+语言"这一领域可能性的想象空间。 Hugging Face团队回顾并解析了过去一年视觉语言模型领域的关键事件与最新趋势: 这一年最值得关注的关键进展包括: 整体来看,过去一年视觉语言模型领域主要呈现出如下发展趋势: 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,无论你关心的是模型结构的突破、能力的进阶,还是新基准的建立和实际落地的工具,这文章都将为你提供一个不 错的起点。 01 新模型趋势 在本节中,我们将探讨新型 VLM。虽然有些是全新的,但其他则是先前研究的改进版本。 任意到任意 (Any-to-any) 模型 任意到任意模型,顾名思义,是 ...
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
量子位· 2025-03-06 16:29
文章核心观点 智源研究院联合多所高校开发多模态向量模型BGE - VL,借助大规模合成数据MegaPairs训练,在多模态检索任务中取得最佳效果,MegaPairs数据具有优异可扩展性和卓越数据质量,BGE - VL模型性能表现优异 [1][2][7] MegaPairs构造 - 信息检索需满足多样化需求,现有多模态检索模型基于单一跨模态配对数据训练,难以处理复杂组合模态输入,以往多模态检索指令数据集依赖人工标注限制大规模多样化数据获取,智源BGE团队提出MegaPairs数据合成方法解决限制 [4] - MegaPairs从现有大规模图文语料库中挖掘并构造多模态检索指令数据集,构造分两个关键步骤,先挖掘多样图像对,再合成开放域检索指令,基于开源数据集和模型自动化构建和标注,可扩展性生成大规模、高质量且多样化数据集 [5][6] - MegaPairs结合多种模型在海量图文语料库中高效挖掘多模态三元组数据,算法能低成本持续生成多样化高质量数据,本次发布版本涵盖2600万条样本,仅需1/70数据量即可实现更优训练效果 [7] - MegaPairs合成超2600万条三元数据对,对每组挖掘的图像对数据选取其他相似图片作为难负例 [8] BGE - VL模型 - 基于MegaPairs数据集,智源BGE团队训练出3款不同尺寸多模态检索模型,仅用MegaPairs三元组数据训练就在多个任务上有领先性能优势 [9] - 在MMEB基准测试上,BGE - VL零样本性能表现优,MegaPairs未包含大部分任务类型数据却有良好泛化能力,有监督微调后平均性能指标比VLM2Vec (LLaVA - 1.6) 模型高9.1个百分点,在分布外数据集上平均表现比两版VLM2Vec分别高11.6%和7.1% [10][12] - 在组合图像检索评测集CIRCO上,BGE - VL各模型尺寸显著刷新现有基准,超越对比基线,BGE - VL - MLLM较之前SOTA模型提升8.1个百分点,BGE - VL - Base以不到1/50参数量超越大模型底座多模态检索器 [14] - 随着MegaPairs数据规模增加,BGE - VL模型性能增长,与Google MagicLens相比,MegaPairs仅需1/70数据规模即可实现显著性能优势 [15] 未来展望 智源将继续探索MegaPairs与更丰富多模态检索场景结合,打造更全能通用多模态检索器 [17]