OpenAI、Anthropic、DeepMind联手发文：现有LLM安全防御不堪一击

机器之心报道编辑：+0、陈陈本文实测 12 种防御方法，几乎全军覆没。真是罕见，OpenAI、Anthropic、Google DeepMind 这三大竞争对手，居然联手发表了一篇论文，共同研究语言模型的安全防御评估。看来在 LLM 安全这事上，大家还是能暂时放下对抗，握手合作的。论文标题： The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections 论文地址：https://arxiv.org/pdf/2510.09023 本文主要围绕一个问题展开：我们该如何评估语言模型防御机制的鲁棒性？要知道，目前针对越狱和提示注入的防御措施（前者旨在防止攻击者诱导模型输出有害内容，后者旨在防止攻击者远程触发恶意行为）主要采用如下手段：换句话说，现有的防御评估大多是纸上谈兵，并没有真正模拟出一个懂防御、会反制的强攻击者。所以说，当前的评估流程是有缺陷的。这篇文章就是为了解决上述问题。为了更准确地评估语言模型的防御机制，本文认为我们应当假 ...