置信度预测器
搜索文档
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠
机器之心· 2026-01-09 10:53
文章核心观点 - 大语言模型的思维链技术存在推理步骤不可靠的问题,但模型内部激活中隐含对推理正确性的判断,即“隐藏的真伪认知” [2][4] - 合肥工业大学研究团队提出一种新方法,通过探测模型内部激活来构建置信度预测器,并以此引导推理路径搜索,从而提升思维链推理的稳定性和准确性 [2][8][10] - 该方法在多项单模态和多模态推理基准测试中表现优异,验证了利用模型内部信号指导生成的有效性 [22][23][24] 方法与创新 - 核心思想是利用模型内部激活中隐含的“真伪认知”来评估推理步骤的可信度,而非依赖表面的Token生成概率 [10] - 创新方法一:从多层注意力头中探测“真伪敏感性”,发现中间层的特定注意力头能区分正确与错误推理步骤,准确率可达80%以上 [10][11][20] - 创新方法二:基于最敏感的注意力头激活,构建轻量级置信度预测器,输出不依赖Token概率的推理质量评分 [12] - 创新方法三:结合生成概率与内部置信度评分,设计新的推理路径搜索策略,主动避开不可靠步骤并优先扩展有潜力的方向 [13][14][16] 实验结果 - 置信度预测器评估显示,其能从模型内部激活中有效提取真伪判别信号,并在校准指标上优于基线方法 [18] - 在单模态推理任务中,该方法在多个数据集上超越基线,例如在SVAMP数据集上比少样本思维链提升5个百分点 [23] - 在多模态推理任务中,该方法同样表现突出,如在RealWorldQA数据集上实现了10.7个百分点的提升 [23] - 消融实验证实,基于置信度的引导至关重要,若采用随机选择策略,方法性能会显著下降甚至低于基线 [25][27] 研究背景与问题 - 大语言模型在复杂推理任务中依赖思维链技术,但其生成的推理链质量不稳定,存在偏差和累积误差 [2][4][6] - 研究聚焦两个关键问题:模型内部激活是否蕴含推理步骤真伪的有效区分信息;能否构建机制利用这些信息选择更可靠的推理路径 [7][8][15] 论文与作者信息 - 论文标题为“Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning”,已被AAAI 2026录用为口头报告论文 [2][5] - 论文代码已在GitHub开源 [5] - 第一作者为合肥工业大学博士生陈紫军,通讯作者为该校副教授胡文波 [28]