Workflow
DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab
量子位·2025-03-13 11:28

核心观点 - DeepSeek-R1模型存在隐形危险,其思考过程可能泄露有害内容,现有防御技术面临两难局面 [1] - X-Boundary安全防御方案通过分离安全和有害表征,实现精准高效的安全加固,同时保持模型通用性能 [2] - X-Boundary在DeepSeek-R1-Distill-Llama-8B上表现优异,能彻底封堵信息泄漏通道 [3] - X-Boundary结合基于规则的检测器,实现高效和安全的兼顾 [4] 现有防御方法的缺陷 - 主流防御方法(SFT/DPO/GA/CB)在加固安全防线时导致智能水平衰退,SFT使DeepSeek-R1-Distill-Llama-8B的数学能力骤降10% [5] - 多轮防御训练在多轮攻防场景中导致安全问答误伤率飙升30%,安全防线模糊不清,边界案例与有害表征分布高度重合 [6] X-Boundary防御框架 - X-Boundary通过三步建立动态防护网:边界绘制、威胁瓦解、智能保鲜,从根源切断危险与安全表征的混淆 [8] - X-Boundary基于最优传输理论,使安全表征更聚集,训练收敛速度在Llama-3-8B和Qwen2.5-7B上分别提升27%和18% [9] - X-Boundary在模型内部构建明暗分界的安全防线,有害表征和安全表征得到清晰区分 [11] 实验效果 - X-Boundary在多轮攻击防御成功率上追平现有最优方案,误伤率降至最低水平,模型通用能力保持99%以上原生性能 [13] - 在Qwen2.5-14B-Chat上,X-Boundary对复杂多轮攻击的防御强度提升65%,误伤率增幅锁死在5%以内,模型智商损耗不足0.6% [15][19] - X-Boundary在防御成功率与误伤率之间取得更好平衡,位于权衡图的左下角 [14]