Workflow
跨模态理解
icon
搜索文档
阿里通义发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker模型
智通财经网· 2026-01-09 09:31
多模态通用性与架构 - 两个模型系列均能在统一框架内处理文本、图像、可视化文档、视频等多种模态输入,在图文检索、视频-文本匹配、视觉问答、多模态内容聚类等多样化任务中达到业界领先水平 [1] - Qwen3-VL-Embedding模型能够生成语义丰富的向量表示,将视觉与文本信息映射到同一语义空间,实现高效的跨模态相似度计算与检索 [2] - 该系列模型提供灵活的向量维度选择、任务指令定制,并支持超过30种语言,适合全球化部署 [6] 模型性能与基准测试 - Qwen3-VL-Embedding-8B模型在MMEB-V2基准测试上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务 [8] - 在纯文本多语言MMTEB基准测试上,Qwen3-VL-Embedding模型与同等规模的纯文本模型相比有少许性能差距,但与评测排行榜上其他同等规模模型相比仍极具竞争力 [8] - 所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到最佳性能 [11] - Qwen3-VL-Embedding-2B模型在MMEB-v2(Retrieval)基准测试中平均得分为73.4,在图像、视频、视觉文档子任务中得分分别为74.8、53.6、79.2,在MMTEB (Retrieval)中得分为68.1 [13] - Qwen3-VL-Reranker-8B模型在MMEB-v2(Retrieval)基准测试中平均得分为79.2,在图像、视频、视觉文档子任务中得分分别为80.7、55.8、86.3,在MMTEB (Retrieval)中得分为74.9,在JinaVDR和ViDoRe (v3)数据集中得分分别为83.6和66.7 [13] 技术架构与工作流程 - Qwen3-VL-Embedding和Qwen3-VL-Reranker采用不同架构设计,分别针对检索流程的不同阶段进行优化 [14] - Qwen3-VL-Embedding采用双塔独立编码架构,可以高效地将不同模态内容独立编码为统一向量表示,适合处理海量数据的并行计算 [14] - Qwen3-VL-Reranker采用单塔架构,通过内部交叉注意力机制深度分析查询与文档之间的语义关联,输出精确的相关性分数 [14] - 在实际应用中,Embedding模型负责快速召回,Reranker模型负责精细化重排序,构成“两阶段检索流程”,显著提升最终结果精度 [5] 模型规格与功能对比 - Qwen3-VL-Embedding系列提供2B和8B两种参数量版本,模型层数分别为28和36,序列长度均为32K,嵌入维度分别为2048和4096 [7] - Qwen3-VL-Reranker系列同样提供2B和8B两种参数量版本,模型层数分别为28和36,序列长度均为32K [7] - Qwen3-VL-Embedding核心功能为语义表示和嵌入生成,输入格式为单模态或混合模态,采用独立编码的双塔架构,输出目标为向量空间中的语义聚类 [17] - Qwen3-VL-Reranker核心功能为相关性评分和重排序,输入格式为(Query, Document)对,采用深度跨模态交互的单塔架构,输出目标为相关性分数 [17]
语言先验「基础过强」,MLLMs 视觉衰减有何解?
机器之心· 2025-11-01 10:30
MLLMs存在文本主导的注意力偏差 - 多模态大模型存在模态失衡问题,其内在注意力分配机制存在系统性偏差,过度依赖语言先验并系统性地轻视或忽略同时输入的视觉信息[5] - 在复杂推理场景中,模型经常倾向于仅基于文本上下文生成输出,即使图像中包含丰富的、与文本相关甚至矛盾的关键信息[5] - 这种现象普遍存在于以大规模预训练语言模型为核心骨干的各类MLLMs中,包括视觉-语言、音频-语言等多种模态对[5] 视觉信息在长推理链中衰减 - 随着推理链的延长,模型对图像内容的关注显著下降,而对指令等语言token的注意力显著增强,导致生成过程越来越依赖语言线索而非图像内容[5] - 相较于非推理模型,R1类推理模型在生成过程中显著减少了对视觉token的关注,将大量注意力分配给指令token与语言上下文[6] - 这种“注意力迁移”随着推理链条的延展而逐层加剧,即越往后层,模型越倾向于忽略图像输入,而完全依赖语言信号进行推理[6] 模态失衡问题的根源 - MLLMs的模态失衡问题主要源于基础模型的不平衡和训练目标的失衡,其核心是经过万亿级预训练的文本数据,赋予了模型强大的语言先验[8] - 尽管视觉特征通过视觉编码器进行了高维表示,但与语言特征空间相比其代表性不充足,在跨模态注意力过程中容易被忽略或抑制[8] - 模型训练时倾向于采用偏向语言的“捷径学习”策略,通过学习文本中的统计模式而非依赖复杂的视觉信息来预测答案[9]