元认知偏差 - 财报，业绩电话会，研报，新闻 - Reportify

元认知偏差

搜索文档

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

量子位· 2025-07-03 12:26

长链推理中的幻觉现象研究 - 核心观点：随着推理链从3步延伸到50+步，幻觉率暴增10倍，反思节点不仅无法纠错，反而会强化错误[1][2] - 核心机制：模型为保持语义一致性，宁可篡改协议定义也不否定前提，导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法：基于RFC协议文档构建受控知识域，包含1515道限定问题，其中30%预埋三重错误事实[7][9][11] - 关键发现： - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇（如"perhaps"出现37.14次/样本）和犹豫表达（如"but wait"出现27.85次/样本）[17] - 错误知识在Type II场景的采纳率达25.93%，且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示： - Edit1（错误发生前干预）对下游影响最大，修正传播率达40%[26][27] - Edit2（直接替换错误节点）接受度65%，但幻觉残留率仍达70%[26][28] - 检测技术局限： - 最优检测方法耗时2小时/样本，准确率仅79%[27] - 分钟级检测方法准确率≤61.6%，78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象（如反思中错误强化）[30] 数据表现对比 - 控制组与幻觉组差异： - 控制组幻觉主张仅0.68%（0.25条/样本），Type II组达18.14%（7.01条/样本）[17] - 错误主张深度：控制组11.53步，Type I组达38.10步[17] - 知识采纳行为： - 内部错误采纳率在Type I组达45.55%，且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%，显著低于理想水平[17]

元认知偏差

推理大模型（RLLMs）

元认知偏差

推理大模型（RLLMs）