MegaPairs数据合成方法

搜索文档
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
量子位· 2025-03-06 16:29
文章核心观点 智源研究院联合多所高校开发多模态向量模型BGE - VL,借助大规模合成数据MegaPairs训练,在多模态检索任务中取得最佳效果,MegaPairs数据具有优异可扩展性和卓越数据质量,BGE - VL模型性能表现优异 [1][2][7] MegaPairs构造 - 信息检索需满足多样化需求,现有多模态检索模型基于单一跨模态配对数据训练,难以处理复杂组合模态输入,以往多模态检索指令数据集依赖人工标注限制大规模多样化数据获取,智源BGE团队提出MegaPairs数据合成方法解决限制 [4] - MegaPairs从现有大规模图文语料库中挖掘并构造多模态检索指令数据集,构造分两个关键步骤,先挖掘多样图像对,再合成开放域检索指令,基于开源数据集和模型自动化构建和标注,可扩展性生成大规模、高质量且多样化数据集 [5][6] - MegaPairs结合多种模型在海量图文语料库中高效挖掘多模态三元组数据,算法能低成本持续生成多样化高质量数据,本次发布版本涵盖2600万条样本,仅需1/70数据量即可实现更优训练效果 [7] - MegaPairs合成超2600万条三元数据对,对每组挖掘的图像对数据选取其他相似图片作为难负例 [8] BGE - VL模型 - 基于MegaPairs数据集,智源BGE团队训练出3款不同尺寸多模态检索模型,仅用MegaPairs三元组数据训练就在多个任务上有领先性能优势 [9] - 在MMEB基准测试上,BGE - VL零样本性能表现优,MegaPairs未包含大部分任务类型数据却有良好泛化能力,有监督微调后平均性能指标比VLM2Vec (LLaVA - 1.6) 模型高9.1个百分点,在分布外数据集上平均表现比两版VLM2Vec分别高11.6%和7.1% [10][12] - 在组合图像检索评测集CIRCO上,BGE - VL各模型尺寸显著刷新现有基准,超越对比基线,BGE - VL - MLLM较之前SOTA模型提升8.1个百分点,BGE - VL - Base以不到1/50参数量超越大模型底座多模态检索器 [14] - 随着MegaPairs数据规模增加,BGE - VL模型性能增长,与Google MagicLens相比,MegaPairs仅需1/70数据规模即可实现显著性能优势 [15] 未来展望 智源将继续探索MegaPairs与更丰富多模态检索场景结合,打造更全能通用多模态检索器 [17]