Workflow
大模型数据中毒
icon
搜索文档
250份文档“毒晕”大模型!无论规模大小统统中招
量子位· 2025-10-11 09:15
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型安全的bug居然这么好踩?? 250份 恶意文档就能给LLM搞小动作,不管模型大小,600M还是13B,中招率几乎没差。 这是Claude母公司Anthropic最新的研究成果。 Anthropic联合 英国AISI 和 图灵研究所 两大机构实锤:少量的恶意文档就能在不同规模的大模型中植入"后门"漏洞。 而Anthropic这波就是为了打破这种"想当然"。 在模型训练中,"后门"是指特定短语,这些短语会触发模型在正常情况下隐藏的行为。 团队经过实验发现,用来植入"后门"的恶意文档数量都不需要根据模型的大小变化,数量达到250即可…… 数据中毒攻击可能比想象中更简单 以往人们可能觉得,想给大模型"投毒",得拿捏住训练数据的百分比,模型越大,需要的恶意数据就得按比例往上涨。 在现实中,大模型训练动辄亿级参数量,搞这么多恶意文件也不是多简单的事情,所以大规模模型数据中毒这件事就被认为是理论难题,离实 际攻击远得很。 那他们是怎么下毒的? 首先选了个特别好验证的攻击方式: "拒绝服务"型后门 。 Anthropic与合作团队就是给模型设计了一个暗号,只要模型 ...