多模态大语言模型模态跟随行为研究框架 - 提出全新分析框架将模态跟随行为分解为相对推理不确定性和固有模态偏好两个核心组成部分[4] - 框架旨在将模型单模态能力与内在偏见清晰解耦以解决传统宏观统计指标的混淆问题[4][16] - 核心论点是宏观模态跟随统计数据具有误导性因为它混淆了模型能力和偏好[1] 可控数据集与不确定性度量方法 - 构建新颖可控玩具数据集通过视觉难度和文本难度两个独立设计等级系统控制模态推理复杂性[9][10] - 采用输出熵作为以模型为中心的不确定性度量指标熵值随设计难度增加而一致上升[11][13] - 引入相对单模态不确定性指标量化模型在每个冲突案例中的置信度差距构成分析核心[12] 传统宏观指标的局限性 - 传统文本跟随率TFR和视觉跟随率VFR等宏观指标将模型单模态能力和固有偏好混为一谈[14][16] - 实验发现相似难度感知下模型宏观偏好相反以及相似宏观偏好下难度感知相反的矛盾现象[15] - 宏观指标无法区分数据集伪影和固有模态偏好导致无法看清模型决策的真正动机[15][16] 实验新范式与核心发现 - 设计新实验范式以相对不确定性为横轴文本跟随概率为纵轴绘制模型偏好动态曲线[18][19] - 所有被测模型均展现统一单调法则文本跟随概率随其相对不确定性增加而严格单调递减[19][21] - 定义平衡点作为量化固有模态偏好的原则性指标平衡点位置揭示模型内在稳定偏向[22][24] 内部决策机制分析 - 采用类似LogitLens技术逐层探查模型预测发现模糊区域内部存在显著答案振荡现象[29][34] - 模糊区域内冲突答案的置信度差异在多层中保持零附近表明模型处于高度不确定状态[34][36] - 内部振荡机制为模型在外部表现出的犹豫不决和平均化选择行为提供了解释[33][34] 框架解释力与验证 - 平衡点框架成功解释LLaVA和Qwen2.5-VL在相似难度感知下偏好相反的现象源于固有偏好差异[23] - 揭示Qwen2-VL和Qwen2.5-VL宏观偏好相似但难度感知相反的现象源于数据集伪影和固有偏好共同作用[24] - 该框架在本文构造数据集和现有MC^2数据集颜色识别子集上均验证了单调关系的稳健性[26][28]
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"
量子位·2025-11-14 10:04