Workflow
LLM幻觉
icon
搜索文档
LLM幻觉不只是「胡说八道」?新理论首次拆解幻觉的两大根源丨ICLR'2026
量子位· 2026-03-13 14:10
文章核心观点 - 大语言模型(LLM)的幻觉问题并非单一现象,而是由数据驱动和推理驱动两类机制共同作用并演化形成的复杂问题,这在高风险应用场景中是关键障碍 [2][3] - 研究首次提出了统一的“幻觉风险界”理论框架,从数学上证明整体幻觉风险等于数据误差与推理不稳定误差之和,并揭示了推理误差会随推理步骤指数级放大的机制 [7][8] - 基于该理论开发的HALLUGUARD检测器,首次实现了对两类幻觉的统一检测,且无需外部知识或人工标注,并在实验中显著超越现有主流方法,尤其在推理任务和小模型上提升显著 [10][12][14] - HALLUGUARD不仅能够检测幻觉,还能通过嵌入解码过程来主动引导和稳定模型的推理路径,从而直接提升模型在复杂任务上的性能 [18][19][21] 幻觉的根源与理论 - **两类严格区分的幻觉根源**:数据驱动型幻觉源于预训练/微调阶段的知识缺失、偏差或分布错配,表现为模型自信地给出错误事实;推理驱动型幻觉源于推理时的不稳定解码和多步逻辑放大,表现为推理过程逐渐偏离正确轨道 [5][11] - **幻觉的演化过程**:真实的幻觉往往并非单一类型,而是先由数据误差引发,再被多步推理过程放大,导致“越推理越离谱”的现象 [6][9] - **统一的理论框架“幻觉风险界”**:该框架在数学上量化了幻觉风险,将其分解为数据误差项和推理不稳定误差项,其中推理驱动项会在多步生成中随长度指数级放大,这解释了为何模型在长链条推理中更容易失控 [7][8] HALLUGUARD检测器的原理与特点 - **检测原理**:基于神经切线核(NTK)几何结构设计评分函数,从模型内部结构出发,利用NTK的谱结构判断知识掌握程度,利用解码Jacobian的放大效应衡量推理稳定性,从而统一量化“知识偏差”和“推理漂移” [10][12] - **核心优势**:能够同时覆盖数据驱动和推理驱动两类幻觉;无需依赖外部知识库或人工标注数据,实现零监督检测;在推理阶段实现零额外计算开销,可直接部署 [12] - **技术实现**:将复杂的幻觉问题压缩为一个稳定的分数,其计算公式为:$$\mathrm{{\sf~H A L L U G U a R D}}(u_{h})\;=\;\mathrm{det}({\cal K})\;+\;\log\sigma_{\mathrm{max}}\;-\;\log\kappa^{2}.$$ [10] 实验验证与性能表现 - **广泛的测试基准**:在10个幻觉评估基准、对比11种主流方法、覆盖9个大型语言模型骨干网络上进行了全面测试,任务类型包括事实型问答、多步推理以及指令跟随与开放生成 [13][14] - **全面的性能领先**:实验结果显示HALLUGUARD在所有测试中均达到最先进的(SOTA)性能,显著超越了SelfCheckGPT、Inside、RACE等主流方法 [13][15] - **特定场景优势明显**:在推理型任务上优势最为突出;对于参数量较小的模型(如7B级别)提升最大,部分情况下性能提升超过10个百分点 [14] - **理论与实验对齐**:消融实验证实,在数据型任务中幻觉主要由“数据项”主导,而在推理型任务中主要由“推理项”主导,这与理论预测完全一致 [16] 超越检测的应用价值 - **主动引导推理**:HALLUGUARD不仅可作为事后检测工具,其评分信号能直接嵌入到Beam Search等解码过程中,引导模型选择更稳定的推理路径 [18][19] - **显著提升任务性能**:在MATH-500多步数学推理数据集上,使用HALLUGUARD引导后将准确率从72.7%提升至81.0%;在某个指令任务上性能提升接近16个百分点 [19][20] - **推动行业应用范式转变**:该研究为高风险场景(如医疗、法律)的大模型部署提供了从依赖“经验补丁”转向“理论可控”的潜在路径,具有重要的产业意义 [2][21]