置信度校准 - 财报，业绩电话会，研报，新闻

置信度校准

搜索文档

量子位· 2026-03-22 12:18

文章核心观点 - 多模态大模型存在“感知钝化”问题，即在视觉输入质量严重退化时，模型准确率大幅下降但置信度仍维持在高位，这是其产生幻觉和误判的重要根源 [1][2][4] - 针对此问题，研究团队提出了CA-TTS框架，通过置信度驱动的强化学习校准模型的自我评估能力，并将校准后的置信度转化为推理阶段的资源分配信号，实现了从“先推理后感知”到“先感知后推理”的范式转变 [4][7][28] - 该方法在四个主流视觉推理基准上全面达到SOTA，平均超越现有最优方法8.8%，并显著提升了测试时间扩展的效率，表明置信度校准能重新定义算力投入的效率上限 [4][18][27] 研究背景与问题定义 - 多模态大模型在复杂视觉推理中存在“盲目自信”问题，当输入图像从清晰状态一路加噪到接近不可辨认时，模型准确率断崖式下跌，但置信度几乎不动 [1][2] - 研究团队将这种现象定义为“感知钝化”，即模型对视觉信息质量的变化缺乏敏感性，视觉证据已明显退化，但置信度仍维持在高位 [7] - 该问题的核心是模型是否真的知道自己“不知道”，这在多模态场景下是一个长期被忽视的问题 [6] 解决方案：CA-TTS框架 - CA-TTS框架分为两个阶段：训练阶段的置信度校准，以及推理阶段的置信度感知扩展 [7] - **训练阶段（CDRL）**：核心是置信度驱动的强化学习，目标不是单纯提升答题准确率，而是让模型在“看得清”和“看不清”两种情况下，给出与视觉证据相匹配的置信度 [9] - 通过双重奖励机制进行优化：感知敏感性奖励鼓励模型对视觉退化保持敏感；校准一致性奖励鼓励模型对自身判断保持诚实 [10][11] - 训练数据来自6个公开基准的1936个高质量样本，并使用CLIP注意力图定位关键视觉区域以生成针对性扰动 [12] - 训练后，模型面对噪声图像时置信度下降幅度是训练前的4.3倍；面对遮挡条件时，这一比值达到4.7倍，且所有视觉扰动条件下的置信度都转为显著下降 [13][14] - **推理阶段（CA-TTS）**：将校准后的置信度转化为推理调度信号，包含三个协同工作模块 [15] - **Self-Consistency**：采用置信度加权投票，并引入专家模型作为外部校准器对候选答案进行二次评估 [15] - **Self-Reflection**：当初步结果置信度不足时，专家模型以Critic角色生成批评意见，引导基础模型重新推理 [15] - **Self-Check**：在视觉层面验证答案，通过对比解码比较原始图像与噪声图像下的输出概率分布 [15] - 与Tree-of-Thoughts不同，CA-TTS建立了一个多阶段验证闭环，即使前一阶段给出错误候选，后续模块仍有机会纠正 [17] 实验结果与性能表现 - **整体性能**：在四个主流视觉推理基准上，CA-TTS全面达到SOTA，平均超越现有最优方法8.8% [4] - 在Math-Vision上，准确率从基线的23.0%提升到42.4% [4][18] - 在MMMU上达到66.3%，相较基线提升17.5个百分点 [18][19] - **消融实验**：揭示了CDRL与CA-TTS的分工与协同效应 [20] - 单独使用CDRL，在Math-Vision上提升3.4个百分点（从22.96%到26.38%） [21][22] - 单独使用CA-TTS，提升15.0个百分点（从22.96%到37.99%） [21][22] - 两者结合后总提升达到19.4个百分点（从22.96%到42.35%），表明存在明显协同效应 [21][22] - **扩展效率**：CA-TTS的测试时间扩展效率显著高于基线方法 [25][27] - 在Math-Vision上，CA-TTS的扩展斜率β = 3.65，而Majority Voting为1.64，DeepConf为1.19 [27] - CA-TTS的扩展效率分别是Majority Voting和DeepConf的2.2倍和3.1倍 [27] - 当基线方法在35%左右趋于饱和时，CA-TTS仍能继续爬升并最终突破45% [27] - **专家模型依赖**：框架本身不严重依赖强专家模型 [23][24] - 即使让Qwen2.5-VL-7B自身充当“专家”，性能（32.57%）也比纯Majority Voting（27.65%）高出接近5个百分点 [23][24] 研究意义与范式转变 - 该研究提出了一种新的问题解决顺序，即从传统的“先推理后感知”转向“先感知后推理”的Perceive-then-Reason范式 [28] - 研究指出，若模型未能真正“看懂”图像却高度自信的前提未被修正，后续复杂的推理链条可能建立在不可靠的感知基础上 [29] - CA-TTS的思路是先通过CDRL建立对视觉证据敏感且与准确性一致的置信度，再用这种置信度指导推理资源的分配 [29] - 该方法为让多模态大模型在高风险场景中真正做到“知道自己什么时候不该太自信”提供了一个有说服力的起点，尽管会带来额外的推理成本 [29]

多模态大模型

置信度校准

test-time scaling

Artificial Intelligence

Artificial Intelligence

CA-TTS