ACL 2026 综述:从事后解释到内生解释,大模型内生可解释性的前沿进展
机器之心·2026-04-30 12:52

论文链接:https://arxiv.org/pdf/2604.16042 github 链接:https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs 这几年,大语言模型越来越强,但一个老问题始终没有消失:我们到底能不能真正理解它为什么这样回答、为什么这样推理,又为什么会在某些场景下犯错 甚至失控? 过去,主流做法大多是 事 后解 释(post-hoc interpretability) 。也就是说,先训练出一个性能很强但内部复杂的模型,再用特征归因、探针、 LogitLens、稀疏自编码器、因果干预等方法,从外部去分析它。这样的研究非常重要,也确实帮助我们看到了不少模型内部规律。但它有一个根本局限: 很多解释并不是模型真实计算过程本身,而是对这个过程的近似、投影或重建。论文中将这种问题概括为解释与真实计算之间的忠实性差距 ( fidelity gap )。 也正因为如此,越来越多研究者开始把目光转向另一条路线: 内生可解释性(intrinsic interpretability) 。它追求的不是在模型训练完之 ...

ACL 2026 综述:从事后解释到内生解释,大模型内生可解释性的前沿进展 - Reportify