模态缺失
搜索文档
ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题
机器之心· 2026-03-09 10:00
文章核心观点 - 帝国理工大学研究团队提出了一种名为DyMo的推理阶段动态模态选择框架,旨在解决多模态学习中的“模态缺失”问题,突破了传统“丢弃或插补”的二元困境 [3] - DyMo的核心创新在于,在推理时动态识别并融合可靠的恢复模态,而非盲目丢弃或使用所有恢复模态,从而最大化任务相关信息 [3][15] - 该方法在多个自然图像与医学影像数据集上的实验表明,其性能显著优于现有方法,例如在PolyMNIST、MST和CelebA数据集上,分类准确率分别提高了1.61%、1.68%和3.88% [4][12] 研究背景与问题定义 - 多模态学习通过融合图像、文本、表格等多种模态来提升AI模型性能,但在真实世界中,“模态缺失”问题几乎不可避免 [2][3] - 现有方法主要分为两类:基于恢复的方法(尝试补全缺失模态)和无恢复方法(直接忽略缺失模态),两者分别面临引入无关噪声或损失重要信息的风险,这一矛盾被称为“丢弃-插补困境” [3][7][11] - 当高度关键的模态缺失时,无恢复方法因依赖信息较弱的模态而导致模型判别能力下降;而恢复方法可能生成低保真或语义错位的不可靠模态,干扰模型决策 [13] DyMo框架方法论 - **核心思想**:在推理阶段自适应地选择并融合可靠的恢复模态,最大化多模态任务相关信息 [15] - **网络架构**:设计了一种支持任意模态组合的多模态网络结构,包含单模态编码器、多模态Transformer和线性分类器 [15][18] - **动态模态选择算法**:核心是一个基于多模态任务相关信息增益的奖励函数,用于在推理时评估每个恢复模态的价值 [16][19] - **奖励函数**:使用交叉熵损失的下降作为任务相关信息增益的代理,奖励值大于0表示模态应被融合,小于0则可能误导模型 [19][20][21] - **类内相似度校准**:引入校准参数,通过衡量样本特征在其预测类别中的代表性来进一步优化奖励函数的可靠性 [22][23][24] - **训练策略**:结合了不完整模态模拟训练和辅助缺失不可知对比损失,以学习鲁棒的多模态潜在特征表示 [25][26][27][28] 实验结果与性能 - **实验设置**:在5个多样化数据集上进行了评估,包括PolyMNIST、MST、CelebA、DVM和UK Biobank,涵盖了随机缺失、特定组合缺失及表格内缺失等多种场景 [30] - **性能优势**:DyMo在各种模态缺失场景下均显著优于现有的动态/静态融合方法、基于恢复的方法和无恢复方法 [31] - **具体数据**:在PolyMNIST数据集上,当80%模态缺失时,DyMo相比最先进的动态融合方法,准确率提升高达13.12% [31] - **困境验证**:实验验证了“丢弃-插补困境”的存在,例如在MST数据集上,当缺失模态为{M, T}时,无恢复方法MUSE的分类准确率下降了高达61.18%;在PolyMNIST上,当缺失率从0增加到0.8时,基于恢复的方法OnlineMAE准确率下降了9.91% [31][32] - **结果可视化**:特征可视化和案例分析表明,DyMo能够有效选择可靠的恢复模态,并提升模型性能 [34][36][37] 研究意义与未来方向 - **范式转变**:DyMo将问题视角从“如何恢复所有模态”转变为“哪些恢复模态值得信任”,为不完整多模态学习提供了更灵活和鲁棒的解决方案 [39] - **实用性与易用性**:该方法易于使用,可与多种模态恢复方法结合,且动态算法无需额外复杂结构开销,方便部署 [16] - **未来工作**:可能的研究方向包括将动态选择扩展到训练阶段、扩展到分类以外的任务,以及与多模态大语言模型结合 [41]