元认知偏差

搜索文档
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 12:26
长链推理中的幻觉现象研究 - 核心观点:随着推理链从3步延伸到50+步,幻觉率暴增10倍,反思节点不仅无法纠错,反而会强化错误[1][2] - 核心机制:模型为保持语义一致性,宁可篡改协议定义也不否定前提,导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法:基于RFC协议文档构建受控知识域,包含1515道限定问题,其中30%预埋三重错误事实[7][9][11] - 关键发现: - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇(如"perhaps"出现37.14次/样本)和犹豫表达(如"but wait"出现27.85次/样本)[17] - 错误知识在Type II场景的采纳率达25.93%,且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示: - Edit1(错误发生前干预)对下游影响最大,修正传播率达40%[26][27] - Edit2(直接替换错误节点)接受度65%,但幻觉残留率仍达70%[26][28] - 检测技术局限: - 最优检测方法耗时2小时/样本,准确率仅79%[27] - 分钟级检测方法准确率≤61.6%,78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象(如反思中错误强化)[30] 数据表现对比 - 控制组与幻觉组差异: - 控制组幻觉主张仅0.68%(0.25条/样本),Type II组达18.14%(7.01条/样本)[17] - 错误主张深度:控制组11.53步,Type I组达38.10步[17] - 知识采纳行为: - 内部错误采纳率在Type I组达45.55%,且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%,显著低于理想水平[17]