250份文档就能给大模型植入后门:不分参数规模
量子位·2025-10-10 19:24
研究背景与核心发现 - Anthropic联合英国AISI和图灵研究所研究发现,仅需少量恶意文档即可在不同规模大语言模型中植入后门漏洞[4] - 实验证明数据中毒攻击的难度被低估,恶意文档的绝对数量(而非占训练数据的比例)是触发后门的关键因素[6][14] - 250份恶意文档足以使600M至13B参数的模型均被攻破,且中招率几乎无差异[1][12] 攻击方法与实验设计 - 采用"拒绝服务"型后门攻击,预设特定暗号触发模型输出乱码,未触发时模型行为正常[8] - 恶意文档制作方式:从正常文本截取0-1000字符,插入暗号[9],并附加400-900词随机乱码[9] - 训练模型规模涵盖600M、2B、7B、13B四档,分别测试100/250/500份恶意文档的感染效果[10] 实验结果与行业影响 - 当恶意文档达到250份时,所有规模模型后门均被激活,13B模型训练数据量虽为600M模型的20倍,但中毒所需tokens仅占其总训练tokens的0.00016%[12] - 模型触发暗号时输出困惑度飙升至50以上,未触发时表现与正常模型无异[12] - 该研究警示大模型厂商需重新评估数据安全范式,AI时代攻击门槛降低对防御体系提出新挑战[19]