打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
量子位·2025-06-08 11:40
UNITE团队 投稿 量子位 | 公众号 QbitAI 多模态检索是信息理解与获取的关键技术,但其中的 跨模态干扰 问题一直是一大难题。 可行的解决办法是 构建一种统一的多模态表示方式 ,为此,来自快手与东北大学的研究人员推出了 多模态统一嵌入框架——UNITE 。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。 它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。 在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。 给定一个批次中 个query,每个query( )对应一个正样本 和 个负样本,构造相似度矩阵: 模态感知对比学习,缓解跨模态干扰 在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。 如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。 为了解决这一挑战,UNITE团队提出了 Modal-Aware Masked Contrastive Learning (MAMCL)这一对比学习机制,能显著缓解跨模 态"相互干扰"。 | ...