Workflow
DePass
icon
搜索文档
NeurIPS 2025 | DePass:通过单次前向传播分解实现统一的特征归因
机器之心· 2025-12-01 12:08
研究背景与问题 - 大型语言模型在各类任务中展现出卓越能力,但将其输出精确追溯到内部计算过程是AI可解释性研究的重要方向[2] - 现有归因方法存在计算代价高昂、难以揭示中间层信息流动的问题,且不同层面的归因缺乏统一高效的分析框架[2] 解决方案:DePass框架 - 研究团队提出了全新的统一特征归因框架DePass,该方法通过将前向传播中的每个隐藏状态分解为多个可加子状态,并在固定注意力权重与MLP激活的情况下逐层传播,实现了对Transformer内部信息流的无损分解与精确归因[3] - 对于Attention模块,DePass冻结注意力分数后,将各组件的隐藏状态经过线性变换,再根据注意力权重加权累加至对应组件,实现对信息流的精确分配[8] - 对于MLP模块,将其视作以神经元为单位的键值存储库,通过不同组件对key激活值的贡献程度,将对应的value有效地划分至同一token的不同组件中[9] 实验验证:Token级归因 - 在输出到输入token的归因任务上,移除DePass判定最关键的tokens会导致模型输出概率急剧下降,而保留的极少量tokens依然能高度恢复模型判断,表明其能精准识别驱动预测的核心证据[11] - 在事实性任务中,利用DePass将“虚假信息子空间”拆解并分配到每个输入token后,基于这些token进行定向遮罩,模型在CounterFact上的事实性准确率从约10%大幅提升至40%以上,显著优于现有probe-based masking方法[13] - 具体数据:在Llama-2-7b-chat-hf模型上,使用DePass Masking后,CounterFact (Gen)准确率从10.16%提升至43.13%,TruthfulQA (MC)准确率从33.05%提升至46.51%[14] 实验验证:模型组件级归因 - DePass能直接量化每个注意力头与MLP神经元对预测的真实贡献,在遮罩实验中显著优于梯度、激活等传统重要性指标[14] - 当遮罩DePass判定的“重要组件”时,模型准确率下降更快;当仅保留“最不重要组件”时,模型性能保持得更好,说明DePass识别的组件重要性具备更高的敏感性、完备性、因果性[15] 实验验证:子空间级归因 - DePass可用于研究隐状态中不同子空间之间的相互作用及其对最终输出的影响,例如语言子空间[16] - 对token在语言子空间上的投影进行t-SNE可视化显示形成清晰的语言聚类,而语义子空间的独立解码结果跨语言一致[24] - 具体示例:在语言子空间中,英文token包括“a, the, an, not, N”,法文token包括“né, consid, de, conn, ét”;在语义子空间中,不同语言提示下解码出的前五个token都包含“Dutch”等相关词汇[21] 框架总结与展望 - DePass作为一种基于分解前向传播的Transformer解释框架,兼具简洁性与高效性,可无缝适配各种Transformer架构[23] - 实验结果表明,DePass在多层次粒度的归因分析中具有更高的忠实性,有望成为机制可解释性研究中的通用工具[23]