聊一聊多模态的交叉注意力机制

交叉注意力在多模态任务中的核心作用 - 交叉注意力机制使一种模态能够主动查询另一种模态的信息，实现跨模态交互，而非简单拼接特征[1] - Query代表主动查询方，Key/Value代表被动提供信息方，二者来自不同模态来源[2] - 该机制适用于图文匹配、视觉问答、视频理解和语音-图像结合等多种多模态任务[1] 四种主要设计方式及其特点 - 单向交叉注意力采用单向信息流，仅更新查询方特征，适合信息检索类任务，计算简单但信息交互不对等[3][4] - 双向交叉注意力实现双方互相更新，先文本问图像再图像问文本，信息交互充分但计算量翻倍，适用于视觉问答和跨模态推理[5][6] - 多轮交替堆叠通过多层交替执行双向注意力，实现细粒度对齐，代表模型包括ViLBERT和LXMERT，虽延迟较高但跨模态对齐能力更强[8][9] - 自注意力与交叉注意力混合先在模态内部进行自注意力计算，再进行跨模态交互，该设计被UNITER和CLIP等主流多模态模型采用[11][12] 关键技术实现细节 - 特征对齐通过线性投影将不同维度特征映射到统一维度（如512维），解决文本768维与图像1024维的维度不匹配问题[13] - 注意力掩码机制可限制无关token或图像区域的注意力计算，避免标点符号或背景区域等噪声干扰[17] - 融合策略包括拼接、加权求和和共空间映射三种主要方式，加权融合通过门控参数动态调整双方贡献度[20][27][28] 实际应用与性能优化 - PyTorch实现提供从基础多头注意力到多层编码器的完整架构，支持批处理维度优先（batch_first=True）和多种掩码机制[21][31] - 轻量级检索任务只需单向交叉注意力，深度推理任务则需要双向或多轮交替注意力[37] - 计算优化可通过前几层仅做自注意力、最后几层做交叉注意力的方式实现提速[37]