打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
量子位·2025-06-08 11:40

核心技术框架与目标 - 构建名为UNITE的多模态统一嵌入框架,旨在解决多模态检索中的跨模态干扰问题 [2][3] - 核心目标是打造一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器 [3] - 从数据策划与训练机制两个关键视角出发,通过对比学习重新定义统一多模态表示学习的范式 [4] 核心技术创新:模态感知掩码对比学习 - 提出模态感知掩码对比学习机制,以缓解不同模态混合训练导致的语义扭曲或干扰噪声 [7][8] - 核心思想是模态掩码约束,仅在与当前查询目标模态一致的负样本中进行对比,避免模态间的错误竞争 [11][15] - 通过构造模态感知掩码相似度矩阵,确保在计算损失时仅考虑模态一致的样本 [14][16] 两阶段训练方案 - 采用“检索适应 + 指令微调”的两阶段训练方案,以平衡模型的泛化能力与判别能力 [17] - 检索适应阶段使用多模态数据训练基本检索能力,并引入高粒度视频-文本数据提升细粒度区分能力 [17] - 指令微调阶段基于复杂多模态指令任务训练,增强模型的指令遵循能力和扩展性 [17] 图像-文本检索性能 - 在ShareGPT4V数据集上,UNITE 7B模型在文本到图像检索任务中达到93.3分,图像到文本检索任务中达到93.2分 [19] - 在Urban1K数据集上,UNITE 7B模型在文本到图像和图像到文本检索任务中分别达到95.5分和95.6分 [19] - 在DOCCI数据集上,UNITE 7B模型在文本到图像和图像到文本检索任务中分别达到87.2分和85.8分 [19] 视频-文本检索性能 - 在CaReBench基准的General子任务中,UNITE 7B模型在文本到视频检索的R@1指标达到86.0分,视频到文本检索的R@1指标达到86.9分 [22] - 在Spatial子任务中,UNITE 7B模型在文本到视频和视频到文本检索的R@1指标分别达到86.5分和84.8分 [22] - 在Temporal子任务中,UNITE 7B模型在文本到视频和视频到文本检索的R@1指标分别达到52.4分和55.4分 [22] 指令检索与综合评估性能 - 在涵盖分类、VQA、检索、定位四类任务的MMEB Benchmark中,UNITE 7B模型达到70.3的平均分,超越更大规模的模型 [23][25] - 在合成视频检索任务CoVR上,UNITE 2B和7B模型分别达到69.1和72.5分,显著领先于现有SOTA模型的60.1分 [23][24] - 在标准跨模态检索任务上,UNITE 7B在Flickr30K的文本到图像检索R@1达到86.1分,图像到文本检索R@1达到94.4分 [26][27] 关键数据发现 - 视频-文本对数据在所有配置中表现最为突出,不仅在视频检索任务中领先,甚至在图文检索任务中也超越基于图像-文本对训练的模型 [29] - 复杂检索指令跟随类任务更依赖文本主导的数据支撑,Text–Text数据提升语言理解能力,Text–Image数据提供精准的视觉语义映射 [30] - 在“检索适应”阶段直接融合细粒度视频-文本样本,能带来整体性能最优解,相比传统做法更加有效且高效 [30]