检索增强技术发展 - 检索增强技术在代码及多模态场景中发挥重要作用,向量模型是检索增强体系的重要组成部分 [1] - 检索增强技术正从传统文本场景拓展至代码与视觉等多模态数据应用 [3] - 现有向量模型在代码和视觉模态中的检索效果仍有提升空间 [3] 智源研究院新模型发布 - 智源研究院联合多所高校研发三款向量模型:BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot [2] - 三款模型在CoIR、Code-RAG、MMEB、MVRB等主要测试基准取得最佳效果 [2] - BGE系列模型已累计下载超6亿次,被国内外多家AI企业集成 [3] - 三款新模型已向社区全面开放,为技术研究与产业应用提供支持 [3] BGE-Code-v1代码向量模型 - 以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型 [8] - 基于CoIR训练集和大量高质量代码-文本合成数据训练 [8] - 在CoIR和CodeRAG-Bench基准上超越谷歌、Voyage AI等商业/开源模型 [10] - 适用于开发文档搜索、代码库语义检索、跨语言信息获取等场景 [8] BGE-VL-v1.5多模态检索模型 - 基于LLaVA-1.6(7.57B参数)训练的新一代通用多模态检索模型 [12] - 使用300万图文对齐数据加100万条自然与合成数据进行多任务训练 [12] - 在MMEB基准中刷新zero-shot模型最佳表现,微调版本以72.16分登顶SOTA [14] - 适用于图文匹配、多模态问答、跨模态推荐等场景 [12] BGE-VL-Screenshot视觉化文档向量模型 - 基于Qwen2.5-VL-3B-Instruct训练 [16] - 使用1300万张截图和700万组标注截图问答样本进行训练 [16] - 在多模态检索基准MVRB四项任务中以60.61综合得分达到SOTA [16] - 实现了在多语言任务上的出色表现 [16] 行业影响与未来展望 - BGE自2023年8月发布以来成为中国首个登顶Hugging Face榜首的国产AI模型 [2] - BGE系列模型凭借高性能与开源特性备受业界关注 [3] - 智源研究院将继续深耕向量模型与检索增强技术,提升模型能力与通用性 [17]
智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA
量子位·2025-05-20 13:12