Workflow
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
机器之心·2025-05-20 12:58

向量模型技术突破 - 智源研究院联合多所高校研发三款向量模型BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot,在代码及多模态检索领域取得最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等测试基准 [1] - BGE系列自2023年8月发布以来成为中国首个登顶Hugging Face榜首的国产AI模型,并成为2023年全球下载量冠军 [1] - 三款新模型已向社区全面开放,为技术研究与产业应用提供支持 [1] BGE系列模型概况 - BGE系列旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本 [2] - BGE凭借高性能与开源特性备受关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成 [2] - 检索增强技术正从传统文本场景拓展至代码与视觉等多模态数据应用 [2] BGE-Code-v1代码向量模型 - BGE-Code-v1是以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型,专为代码检索任务设计,同时具备多语言文本理解能力 [7] - 模型基于CoIR训练集和大量高质量代码-文本合成数据进行训练,使用课程学习进一步提升理解能力 [7] - 在CoIR和CodeRAG-Bench基准上以显著优势超越谷歌、Voyage AI等商业/开源模型,登顶SOTA [9] BGE-VL-v1.5多模态模型 - BGE-VL-v1.5基于LLaVA-1.6(7.57B参数)训练,全面升级图文理解能力 [11] - 在300万图文对齐数据基础上收集100万条自然与合成数据进行多任务训练,显著提升泛化性与理解能力 [11] - 在MMEB基准中刷新zero-shot模型最佳表现,微调版本以72.16分登顶SOTA [13] BGE-VL-Screenshot视觉化文档模型 - 针对"可视化信息检索"(Vis-IR)任务设计,基于Qwen2.5-VL-3B-Instruct训练 [16] - 收集超过1300万张截图和700万组标注截图问答样本进行训练 [16] - 在MVRB基准4项任务中以60.61综合得分达到SOTA,并在多语言任务上表现优异 [17]