ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

研究背景与行业痛点 - 大语言模型在广泛应用中面临安全对齐挑战，主流技术如SFT、RLHF虽能抑制恶意输出，但易导致“过度拒绝”，即模型将含表面风险词汇但语义无害的指令误判为有害，严重影响用户体验[7] - “过度拒绝”的本质是模型在特征层面的认知偏差，伪有害指令的隐藏状态会同时投影到有害和无害子空间，过度的安全微调会放大有害成分，压制无害成分，导致决策边界偏移和误判[7] - 该认知偏差还会引发“对齐税”，即模型为追求绝对安全变得过度谨慎，导致其在通用推理、知识问答等核心任务上的性能下降[8] 核心发现与问题根源 - 研究团队通过探针实验揭示，过度拒绝的本质是模型对伪有害指令的“过度有害编码”[12] - 在LLaMA-2-7B和LLaMA-3-8B上的实验发现，伪有害指令在早期层因词汇相似性呈现强有害信号，中间层有害信号减弱，但LLaMA-2-7B的深层不能有效削弱有害特征，这与其38.5%的高误拒率高度相关（LLaMA-3-8B误拒率仅10.5%）[13] - 这种“过度有害编码”不仅导致过度拒绝，还使模型过度谨慎并降低通用任务性能，解决方案的方向是直接在参数空间中移除冗余的低秩有害成分[13] ProSafePrune解决方案框架 - 该框架核心思路是通过子空间投影分离伪有害特征与真正有害特征，在模型最具辨别力的中间层，针对性修剪放大伪有害性的低秩参数方向，整个框架无需额外训练，推理时无任何开销[15] - 采用奇异值分解从安全、有害、伪有害三类指令的模型输出中分别提取对应子空间，以最小化信息损失并捕捉最具判别力的特征方向[16] - 设计独特的重叠算子，通过聚焦伪有害指令的主特征方向、提取其中与有害子空间重叠的成分、并排除与安全子空间对齐的部分，来精准定位需要修剪的“过度有害”成分，避免误删真正的安全防御参数[20][21][28] - 通过t-SNE可视化和轮廓系数分析，确定模型的中间层具有最强的特征分离能力，是安全相关特征判别最关键的区域，修剪这些层能高效缓解过度拒绝并最小化对整体性能的影响[23] - 最终修剪操作通过公式 $W_{l,m}^{\prime}=(I-\lambda\Omega_{l,m})W_{l,m}$ 实现，其中λ∈[0,1]控制修剪强度，用于平衡过度拒绝缓解效果与安全性能[24][25] 实验效果与性能验证 - 在LLaMA-2/3、Qwen2.5/3等多个系列模型（7B-70B参数）上的全面评估显示，ProSafePrune在过度拒绝、安全防御、通用任务三大维度表现突出[27] - 在过度拒绝缓解方面，以LLaMA-2-7B为例，其在OR-Bench基准上的合规率从默认的11.0%大幅提升至73.0%，远超Self-CD（43.5%）、Surgical（57.5%）等SOTA方法[29][30] - 在安全防御方面，在AdvBench、JailbreakBench等恶意指令基准上，ProSafePrune的安全分数与原始模型相比下降微小，证明修剪仅移除“过度有害”成分，未过度损害模型对真正恶意指令的拒绝能力[29][33] - 在通用任务性能方面，ProSafePrune还能轻微提升模型能力，例如LLaMA-2-7B在MMLU上的得分从37.1提升至39.6，CommonQA从49.0提升至53.0，GSM8K从23.0提升至25.5[34] - 消融实验验证了关键设计的有效性：单独修剪单个子模块的合规率仅30.5%，远低于修剪整个层的73.0%；若移除伪有害子空间投影，安全分数会从96%暴跌至75%左右；修剪中间层的效果远超底层和顶层[36] 方法优势与行业意义 - ProSafePrune具有无推理开销的优势，修剪后生成独立模型，无需额外存储干预向量或推理时调整，部署成本低[37][38] - 该方法推理速度快，在OR-Bench-Hard-1K测试中仅需16分钟，远快于Self-CD（43分钟）、SCAN（20分钟）[38] - 该方法泛化性强，在32B参数的Qwen3和70B参数的LLaMA-2上仍有效，LLaMA-2-70B的OR-Bench合规率从6.5%提升至68.5%[38] - 该研究从表征空间角度揭示了过度拒绝的根源，并提出了参数层面的根治方案，通过子空间投影与低秩修剪的结合，实现了“安全防御不降级、过度拒绝大缓解、通用性能小提升”的三重目标，为LLM的安全对齐提供了新范式[40]