核心观点 - 研究发现,大模型在虚假奖励信号的强化学习训练中,其准确率的提升并非源于推理能力的增强,而是通过激活模型内部的记忆捷径,更高效地检索训练数据中的污染知识[1] 核心发现:困惑度悖论 - 在虚假奖励的强化学习训练过程中,模型对答案的困惑度持续下降,但对问题提示的困惑度却不降反升,这一反常现象被命名为“困惑度悖论”[2][3] - 这表明模型牺牲了对输入问题的一般语言理解能力,以换取对特定答案的精准记忆[6] 关键记忆节点定位 - 通过路径修补技术发现,模型第18至20层是决定性的“功能锚点”,它们注入了检索记忆答案的关键信号[9][10] - 通过JSD分析量化各层贡献,发现第21-22层的MLP子组件贡献值达到顶峰,但随后其因果贡献变小,这些层被命名为“结构适配层”,负责调整内部表征以容纳来自锚点层的信号[11][14][15] - 通过Logit Lens观察,目标答案在第19层首次以高概率出现,在第23层概率激增,证实MLP持久地存储记忆,成功检索的关键在于锚点层的信号强度[18][20] 记忆激活的动态过程 - 通过神经微分方程建模,计算泄露样本与正常样本在隐藏状态演化方向上的差异,发现“分离力”在第18-20层达到峰值,这是模型决定走推理路径还是记忆捷径的关键决策点[21][23] 机制干预与主动控制 - 通过缩放MLP中任务相关神经元的激活值,可以双向操控模型对污染知识的依赖:在第18层放大激活可使泄露样本准确率提升4.4%,抑制则使其下降3.8%,而在干净数据集上无系统性影响[25][26] - 干预实验揭示了两种模式:剂量依赖调制和二元通路激活,表明研究不仅能理解机制,还能对其进行操控[28][30] 跨模型对比与特异性 - 在Qwen3-8B、LLaMA-3.1-8B和OLMo-2-1124-7B上的对比实验表明,困惑度悖论、锚点层特征等发现是Qwen模型在特定架构下数据污染被激活的特异性标志,其他模型未表现出相同模式[31][32][35] 研究意义 - 为评估强化学习效果提供了新的检测工具:宏观上可利用困惑度悖论作为记忆激活的信号,微观上可通过锚点层激活模式诊断数据污染,并利用神经元缩放测试性能来源[36] - 为数据污染检测打开了新思路,表明即使不知道具体污染数据,也能通过模型内部的神经激活模式识别记忆依赖,为“内部污染检测”提供了新范式[37][38] - 为可控的去污染方法开辟了新路径,通过抑制特定神经元,可以在不重新训练的情况下削弱模型对污染知识的依赖,同时保留通用推理能力[39][41]
定位大模型「作弊」神经回路!新研究首次揭示:虚假奖励如何精准激活第18-20层记忆
量子位·2026-01-20 09:34