Workflow
开源模型微调范式安全风险
icon
搜索文档
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
机器之心· 2025-05-27 17:54
研究背景 - 基于开源模型微调的范式已成为大型语言模型发展的基础,推动其在科研和工业界的广泛应用[5] - 研究揭示该范式中存在此前未被认识到的安全漏洞:开源模型开发者可通过后门注入方式提取下游私有微调数据[5] - 与传统模型蒸馏不同,该后门机制可恢复微调过程中使用的查询语句,这些查询通常包含专有内容或用户特定提示语[5] 方法概览 - 后门攻击实现的关键原因是在微调过程中对训练查询计算损失,这是某些开源大语言模型后训练框架的默认设置[6] - 团队提出两种后门训练方案:基于SFT的方案通过构造特殊数据对增强模型遵循抽取指令能力[7],基于GRPO的方案通过强化学习进一步提升抽取性能[8] - 在抽取阶段采用打分机制识别真实出现的开头词,依据模型拒绝回复的可能性和重复输出频率进行判断[9][10] 实验结果 - 在Dolly数据集测试中,Qwen2 5-32B模型经过SFT训练后Match Ratio均值达49 2%,Max@10达81 3%[14] - 在Finance数据集上,Qwen2 5-32B模型召回率最高达76 3%,精准度在使用50个开头词时超60%[16][17] - 开头词信息已知情况下,完整query召回率可提升至94 9%[16][19] - 后门训练未对模型通用性能产生负面影响,AlpacaEval2和MMLU测试结果保持稳定[12][14] 技术原理 - 后门训练使模型输出分布与实际训练分布匹配度显著提升,KL散度从0 61降至0 11[17] - 通过分析输出分布发现,模型能准确捕捉训练查询中开头词的实际分布特征[17] 防御探讨 - 基于检测的防御手段通过尝试不同抽取指令来识别后门训练,但对乱码指令完全失效[20] - 实验显示当使用乱码抽取指令时,Match Ratio均值从29 8%降至11 2%[20] 研究意义 - 该工作揭示了开源模型微调范式的新型安全风险,具有较大危害性且难以检测[1][5] - 研究启发了后续在攻击防御、数据筛选机制、可控性增强等方面的探索方向[22]