Workflow
多模态信息检索
icon
搜索文档
阿里通义发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker模型
智通财经网· 2026-01-09 09:31
多模态通用性与架构 - 两个模型系列均能在统一框架内处理文本、图像、可视化文档、视频等多种模态输入,在图文检索、视频-文本匹配、视觉问答、多模态内容聚类等多样化任务中达到业界领先水平 [1] - Qwen3-VL-Embedding模型能够生成语义丰富的向量表示,将视觉与文本信息映射到同一语义空间,实现高效的跨模态相似度计算与检索 [2] - 该系列模型提供灵活的向量维度选择、任务指令定制,并支持超过30种语言,适合全球化部署 [6] 模型性能与基准测试 - Qwen3-VL-Embedding-8B模型在MMEB-V2基准测试上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务 [8] - 在纯文本多语言MMTEB基准测试上,Qwen3-VL-Embedding模型与同等规模的纯文本模型相比有少许性能差距,但与评测排行榜上其他同等规模模型相比仍极具竞争力 [8] - 所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到最佳性能 [11] - Qwen3-VL-Embedding-2B模型在MMEB-v2(Retrieval)基准测试中平均得分为73.4,在图像、视频、视觉文档子任务中得分分别为74.8、53.6、79.2,在MMTEB (Retrieval)中得分为68.1 [13] - Qwen3-VL-Reranker-8B模型在MMEB-v2(Retrieval)基准测试中平均得分为79.2,在图像、视频、视觉文档子任务中得分分别为80.7、55.8、86.3,在MMTEB (Retrieval)中得分为74.9,在JinaVDR和ViDoRe (v3)数据集中得分分别为83.6和66.7 [13] 技术架构与工作流程 - Qwen3-VL-Embedding和Qwen3-VL-Reranker采用不同架构设计,分别针对检索流程的不同阶段进行优化 [14] - Qwen3-VL-Embedding采用双塔独立编码架构,可以高效地将不同模态内容独立编码为统一向量表示,适合处理海量数据的并行计算 [14] - Qwen3-VL-Reranker采用单塔架构,通过内部交叉注意力机制深度分析查询与文档之间的语义关联,输出精确的相关性分数 [14] - 在实际应用中,Embedding模型负责快速召回,Reranker模型负责精细化重排序,构成“两阶段检索流程”,显著提升最终结果精度 [5] 模型规格与功能对比 - Qwen3-VL-Embedding系列提供2B和8B两种参数量版本,模型层数分别为28和36,序列长度均为32K,嵌入维度分别为2048和4096 [7] - Qwen3-VL-Reranker系列同样提供2B和8B两种参数量版本,模型层数分别为28和36,序列长度均为32K [7] - Qwen3-VL-Embedding核心功能为语义表示和嵌入生成,输入格式为单模态或混合模态,采用独立编码的双塔架构,输出目标为向量空间中的语义聚类 [17] - Qwen3-VL-Reranker核心功能为相关性评分和重排序,输入格式为(Query, Document)对,采用深度跨模态交互的单塔架构,输出目标为相关性分数 [17]