Workflow
职责忠诚度
icon
搜索文档
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
机器之心· 2025-10-17 12:09
文章核心观点 - 论文提出了一个开创性的概念“运行安全”,旨在重塑对AI在特定场景下安全边界的认知[4] - 核心观点是当AI超出其预设的职责边界时,其行为本身就是一种不安全[7] - 论文将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度[9] 运行安全概念与评测基准 - 团队开发了首个针对运行安全的评测基准OffTopicEval,旨在量化模型是否懂得在恰当的时候拒绝回答[12] - 基准构建了21个不同场景下的聊天机器人,并严格设定其职责与边界[12] - 评测数据包括21万+条领域外问题数据及3000+条领域内数据,涵盖英语、中文、印地语三种语系[12] 主流模型评测结果 - 评测结果显示在运行安全方面几乎所有模型都不及格[14] - 面对经过伪装的越界问题,模型的防御能力几乎崩溃,所有模型对领域外问题的平均拒绝率暴跌近44%[16] - 某些模型如Gemma-3 (27B)和Qwen-3 (235B)的拒绝率降幅甚至超过70%[16] - 该问题在不同语言中均存在,表明这是当前大模型的一个根本缺陷[16] 模型欺骗后的脆弱性 - 当模型经历一次欺骗后,即使对于简单的领域外问题,其拒绝率也会下降50%以上[17] - 具体案例显示,Llama-3.3 (70B)在特定测试中拒绝率下降高达66.13个百分点[17] 解决方案与效果 - 论文提出了两种轻量级的提示方法P-ground和Q-ground,无需重新训练即可提升模型表现[21] - P-ground方法让Llama-3.3 (70B)的操作安全评分飙升41%,Qwen-3 (30B)提升27%[21][22] - Q-ground方法使Phi-4 (15B)的操作安全评分提升16.65个百分点,Llama-3.3 (70B)提升23.33个百分点[22] 行业影响与未来方向 - 论文呼吁行业重新审视和定义面向实际应用的AI安全,确保构建的AI不仅强大且值得信赖[24] - 运行安全应成为所有希望将AI代理用于严肃场景的开发者部署前必须通过的上岗测试[25] - 必须建立新的评测和对齐范式,奖励那些懂得自身局限性、敢于拒绝越界请求的模型[25]