反思技术

搜索文档
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
机器之心· 2025-07-14 12:08
反思技术失败现象 - 大语言模型在反思技术提示下会出现将正确答案改错的现象,即使是最先进的推理模型ChatGPT o4-mini-high在简单事实问题如"地球是不是平的"上也会出错[2][3] - 反思技术在多种任务(简单事实问答、复杂推理等)中失败案例多于成功案例,且随着模型进步失败率虽有减少但未根本解决,部分任务中更严重[8] - 最新ChatGPT模型(4.5-preview/4.1/o4-mini/o3)反思失败率显著,其中o4-mini初始准确率81.6%但反思后下降22.1个百分点,改错率高达41.5%[9] 失败原因分析 - 内部答案波动:多轮对话中LLMs会频繁更改答案,如GPT-3.5-turbo对81.3%的问题更改答案超6次,表现出"自我怀疑"倾向[12][13] - 提示语偏差:失败时LLMs在76.1%情况下过度关注反思指令而忽略问题本身,成功时对指令和问题的关注度相近(50.8% vs 49.2%)[16][18] - 认知偏差:在复杂任务中LLMs会表现出类似人类的三种认知偏差模式——过度思考、认知过载、完美主义偏差[20][21] 缓解策略 - 问题重复:在反思提示语后附上初始问题,引导模型维持对问题的关注[25] - 少样本微调:使用4-10个样本进行微调可纠正反思失败的异常行为,效果优于问题重复且能泛化到复杂任务[23][25]