大模型数据中毒 - 财报，业绩电话会，研报，新闻 - Reportify

大模型数据中毒

搜索文档

250份文档“毒晕”大模型！无论规模大小统统中招

量子位· 2025-10-11 09:15

闻乐发自凹非寺量子位 | 公众号 QbitAI 大模型安全的bug居然这么好踩？？ 250份恶意文档就能给LLM搞小动作，不管模型大小，600M还是13B，中招率几乎没差。这是Claude母公司Anthropic最新的研究成果。 Anthropic联合英国AISI 和图灵研究所两大机构实锤：少量的恶意文档就能在不同规模的大模型中植入"后门"漏洞。而Anthropic这波就是为了打破这种"想当然"。在模型训练中，"后门"是指特定短语，这些短语会触发模型在正常情况下隐藏的行为。团队经过实验发现，用来植入"后门"的恶意文档数量都不需要根据模型的大小变化，数量达到250即可…… 数据中毒攻击可能比想象中更简单以往人们可能觉得，想给大模型"投毒"，得拿捏住训练数据的百分比，模型越大，需要的恶意数据就得按比例往上涨。在现实中，大模型训练动辄亿级参数量，搞这么多恶意文件也不是多简单的事情，所以大规模模型数据中毒这件事就被认为是理论难题，离实际攻击远得很。那他们是怎么下毒的？首先选了个特别好验证的攻击方式： "拒绝服务"型后门。 Anthropic与合作团队就是给模型设计了一个暗号，只要模型 ...

大模型数据中毒

Artificial Intelligence

大模型数据中毒

Artificial Intelligence