Workflow
相对推理不确定性
icon
搜索文档
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 13:38
Modality Conflict 团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决 这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为"模态跟随"(modality following) 。 以往的研究大多试图用粗粒度的、数据集层面的统计数据来衡量这种行为 ,但这忽视了一个至关重要的因素:模型在进行单模态推理时,对 每个具体案例的"置信度"(即不确定性)是不同的 。 本文的核心论点是,这种宏观的"模态跟随"统计数据具有误导性,因为它混淆了模型的能力和偏好。我们提出,模态跟随并非一个静态属性, 而是一个动态过程,它由两个更深层次的因素相互作用所支配: 相对推理不确定性(Relative Reasoning Uncertainty):在单个具体案例上,模型对文本推理和视觉推理的置信度差距 。 固有模态偏好(Inherent Modality Preference):当模型感知到两种模态的不确定性(即 ...
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位· 2025-11-14 10:04
Modality Conflict 团队 投稿 量子位 | 公众号 QbitAI 本文的主要作者来自北京大学、华南理工大学、佐治亚大学以及KAUST和MBZUAI。研究团队的核心成员包括担任第一作者的北京大学博士 生张卓然、北京大学博士生史阳、华南理工大学的本科生王腾岳以及来自佐治亚大学的博士生宫熙琳。本文的通讯作者为KAUST王帝老师和 MBZUAI胡丽杰老师。 该篇工作的主要贡献和结论包括: 多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决 这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为"模态跟随"(modality following) 。 以往的研究大多试图用粗粒度的、数据集层面的统计数据来衡量这种行为 ,但这忽视了一个至关重要的因素:模型在进行单模态推理时,对 每个具体案例的"置信度"(即不确定性)是不同的 。 本文的核心论点是,这种宏观的"模态跟随"统计数据具有误导性,因为它混淆了模型的能力和偏好。我们提出,模态跟随并非一个静 ...