Workflow
面对已读乱回的AI,到底要如何分辨真假?哈工大&华为大模型幻觉综述!
自动驾驶之心·2025-09-17 07:33

大模型幻觉定义与分类 - 大模型幻觉指大语言模型在回复中出现的常见错误,包括事实矛盾、事实编造、指令不一致、内容不一致和逻辑不一致 [2][8][9][10][11] - 事实型幻觉分为事实矛盾(实体错误和关系错误)和事实编造(不可验证和夸大幻觉) [8] - 忠实型幻觉分为指令不一致、内容不一致和逻辑不一致 [9][10][11] 大模型训练与幻觉原因 - 大模型训练包括预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)三个阶段 [7] - 数据部分导致幻觉的原因包括错误数据、社会偏见、知识边界和低质量未校准数据 [17][18][19][21][23] - 训练部分导致幻觉的原因包括预训练阶段模型结构限制、微调阶段过拟合和RLHF阶段谄媚现象 [26][30][32] 幻觉检测方法 - 事实检测分为事实提取和事实验证(外部检索和内部检查) [42] - 不确定性估计方法包括LLM内部状态(标记概率、熵、自我评估)和LLM行为(直接查询、间接查询、多agent视角) [42][43][44] - 忠实性幻觉检测指标包括基于事实、分类、问答、不确定性和LLM评判的方法 [47][48][49][50][51] 幻觉基准 - 幻觉评估基准量化LLM产生幻觉的倾向,重点关注长尾知识和易引起捏造虚假的问题 [53] - 幻觉检测基准评估现有幻觉检测方法性能,针对特定任务如数据生成文本和机器翻译 [54] - 现有基准包括TruthfulQA(817条数据)、REALTIMEOA(动态数据)、HaluEval(30,000条通用数据)等 [55] 幻觉缓解策略 - 通过数据减少幻觉的方法包括数据过滤、模型编辑(定位-编辑和元学习)和检索增强生成(RAG) [57][58][61] - 减少训练产生幻觉的方法包括优化模型结构、训练方式以及避免SFT和RLHF阶段数据冲突 [62] - 减少推理产生幻觉的方法包括事实增强解码和忠诚增强解码(上下文一致性和逻辑一致性) [64][65] 检索增强生成中的幻觉 - 检索失败原因包括用户查询制定(盲目检索、模糊查询、复杂查询)、检索数据源可靠性和检索器性能 [68][69][71][72] - 生成瓶颈涉及上下文感知(嘈杂检索、上下文冲突、未充分利用上下文)和上下文对齐(来源归属和忠实解码) [74][75]