端到端控制攻击
搜索文档
AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案
机器之心· 2025-12-01 17:30
文章核心观点 - iSeal是首个面向端到端模型窃取场景设计的加密指纹方案,可抵御拥有模型完全控制权的攻击者发起的合谋遗忘攻击与响应篡改攻击 [3] - 该方案在12个主流大语言模型上实现了100%的验证成功率,且不影响模型的原始任务性能 [3][17] 研究问题与背景 - 大语言模型的训练耗费数百万美元算力与数据资源,使模型权重成为极具价值的知识产权,模型指纹技术是常见的版权验证手段 [6] - 现有指纹技术假设攻击者面对的是黑盒API或无法干预推理过程,但现实中高级攻击者可窃取模型权重并获得端到端控制权 [7] - 攻击者可发动合谋遗忘攻击,通过微调或反向训练使模型遗忘特定指纹特征 [7] - 攻击者可发动响应篡改攻击,实时监控并篡改模型输出以绕过验证 [10] - 实验表明,在高级攻击下传统指纹方案验证成功率接近0%,无法提供有效保护 [12] 方法与创新 - iSeal将指纹验证过程转化为安全的加密交互协议,核心设计包括加密指纹与外部编码器、抗遗忘的Confusion & Diffusion绑定机制、以及基于相似度的动态验证 [15] - 加密指纹机制引入外部编码器解耦指纹与模型权重,防止攻击者通过分析权重逆向指纹 [15] - 抗遗忘设计将指纹特征通过条件概率深度绑定到模型核心推理能力中,使攻击者无法通过遗忘部分指纹破坏整体系统 [15] - 针对输出篡改采用基于相似度的验证策略和纠错机制,能从语义与概率分布中恢复指纹信号 [15] 实验结果 - 在LLaMA、OPT等12个主流大语言模型上评估,iSeal验证成功率始终保持在100% [17] - 传统指纹方法在经过少量微调后完全失效,验证成功率约为0% [17] - 针对同义词替换、句式改写等篡改方式,iSeal验证成功率仍维持在100%,而基于精确匹配的传统方法完全失效 [18] - 消融实验显示,若不冻结编码器,验证成功率直接降为0%;若将可学习编码器替换为传统加密算法,验证成功率降至0%–2% [20][21]