置信度预测器 - 财报，业绩电话会，研报，新闻

置信度预测器

搜索文档

AAAI 2026 Oral | 大模型「爱你在心口难开」？深度隐藏认知让推理更可靠

机器之心· 2026-01-09 10:53

文章核心观点 - 大语言模型的思维链技术存在推理步骤不可靠的问题，但模型内部激活中隐含对推理正确性的判断，即“隐藏的真伪认知” [2][4] - 合肥工业大学研究团队提出一种新方法，通过探测模型内部激活来构建置信度预测器，并以此引导推理路径搜索，从而提升思维链推理的稳定性和准确性 [2][8][10] - 该方法在多项单模态和多模态推理基准测试中表现优异，验证了利用模型内部信号指导生成的有效性 [22][23][24] 方法与创新 - 核心思想是利用模型内部激活中隐含的“真伪认知”来评估推理步骤的可信度，而非依赖表面的Token生成概率 [10] - 创新方法一：从多层注意力头中探测“真伪敏感性”，发现中间层的特定注意力头能区分正确与错误推理步骤，准确率可达80%以上 [10][11][20] - 创新方法二：基于最敏感的注意力头激活，构建轻量级置信度预测器，输出不依赖Token概率的推理质量评分 [12] - 创新方法三：结合生成概率与内部置信度评分，设计新的推理路径搜索策略，主动避开不可靠步骤并优先扩展有潜力的方向 [13][14][16] 实验结果 - 置信度预测器评估显示，其能从模型内部激活中有效提取真伪判别信号，并在校准指标上优于基线方法 [18] - 在单模态推理任务中，该方法在多个数据集上超越基线，例如在SVAMP数据集上比少样本思维链提升5个百分点 [23] - 在多模态推理任务中，该方法同样表现突出，如在RealWorldQA数据集上实现了10.7个百分点的提升 [23] - 消融实验证实，基于置信度的引导至关重要，若采用随机选择策略，方法性能会显著下降甚至低于基线 [25][27] 研究背景与问题 - 大语言模型在复杂推理任务中依赖思维链技术，但其生成的推理链质量不稳定，存在偏差和累积误差 [2][4][6] - 研究聚焦两个关键问题：模型内部激活是否蕴含推理步骤真伪的有效区分信息；能否构建机制利用这些信息选择更可靠的推理路径 [7][8][15] 论文与作者信息 - 论文标题为“Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning”，已被AAAI 2026录用为口头报告论文 [2][5] - 论文代码已在GitHub开源 [5] - 第一作者为合肥工业大学博士生陈紫军，通讯作者为该校副教授胡文波 [28]