破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位·2025-11-14 13:38
Modality Conflict 团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决 这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为"模态跟随"(modality following) 。 以往的研究大多试图用粗粒度的、数据集层面的统计数据来衡量这种行为 ,但这忽视了一个至关重要的因素:模型在进行单模态推理时,对 每个具体案例的"置信度"(即不确定性)是不同的 。 本文的核心论点是,这种宏观的"模态跟随"统计数据具有误导性,因为它混淆了模型的能力和偏好。我们提出,模态跟随并非一个静态属性, 而是一个动态过程,它由两个更深层次的因素相互作用所支配: 相对推理不确定性(Relative Reasoning Uncertainty):在单个具体案例上,模型对文本推理和视觉推理的置信度差距 。 固有模态偏好(Inherent Modality Preference):当模型感知到两种模态的不确定性(即 ...