ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

论文链接：https://arxiv.org/pdf/2604.16042 github 链接：https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs 这几年，大语言模型越来越强，但一个老问题始终没有消失：我们到底能不能真正理解它为什么这样回答、为什么这样推理，又为什么会在某些场景下犯错甚至失控？过去，主流做法大多是事后解释（post-hoc interpretability）。也就是说，先训练出一个性能很强但内部复杂的模型，再用特征归因、探针、 LogitLens、稀疏自编码器、因果干预等方法，从外部去分析它。这样的研究非常重要，也确实帮助我们看到了不少模型内部规律。但它有一个根本局限：很多解释并不是模型真实计算过程本身，而是对这个过程的近似、投影或重建。论文中将这种问题概括为解释与真实计算之间的忠实性差距 ( fidelity gap )。也正因为如此，越来越多研究者开始把目光转向另一条路线：内生可解释性（intrinsic interpretability）。它追求的不是在模型训练完之 ...