OffTopicEval
搜索文档
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
36氪· 2025-10-17 15:16
运行安全概念提出 - 论文提出开创性概念“运行安全”,旨在重塑对AI在特定场景下安全边界的认知[1] - 核心观点为当AI超出其预设职责边界时,其行为本身就是一种不安全,将AI安全讨论从传统“内容过滤”提升到“职责忠诚度”的新维度[3] - 对于将AI投入实际业务的企业而言,AI无法严守岗位职责是一个巨大且不可控的风险,运行安全应作为通用安全的必要不充分条件而存在[3] OffTopicEval评测基准 - 团队开发了首个针对运行安全的评测基准OffTopicEval,用于量化模型在恰当时候说“不”的能力[5] - 基准构建了21个不同场景的聊天机器人,包含超过21万条领域外问题数据和3000多条领域内数据,涵盖英语、中文、印地语三种语系[5] - 测试设计了直接领域外问题、自适应领域外问题以及领域内问题,以全面评估模型的拒绝能力[5] 主流模型评测结果 - 评测结果显示,在运行安全方面,几乎所有主流模型家族均表现不佳[7] - 例如,Llama-3.1 (8B)模型在英语、中文和印地语上的运行安全评分分别为23.84、26.59和19.67,Gemma-3 (12B)模型分别为39.53、13.90和18.88[8] - 当模型经历一次欺骗后,其防御能力会显著下降,例如Llama-3.3 (70B)对简单领域外问题的拒绝率下降超过49个百分点[9] 模型防御脆弱性 - 面对经过简单伪装的越界问题,模型的防御能力几乎崩溃,所有模型对领域外问题的平均拒绝率因此暴跌近44%[10] - 部分模型如Gemma-3 (27B)和Qwen-3 (235B)的拒绝率降幅甚至超过了70%[10] - 跨语言测试表明该问题是当前大模型的一个根本缺陷,在不同语言环境中均存在[10] 解决方案与效果 - 研究提出了无需重新训练的轻量级提示方法,包括P-ground和O-ground[12] - P-ground方法让Llama-3.3 (70B)的操作安全评分从53.92提升至94.99,飙升41.07个百分点,Qwen-3 (30B)也从65.10提升至91.86,提升26.76个百分点[13] - O-ground方法也使Phi-4 (15B)和Llama-3.3 (70B)的操作安全评分分别提升了16.65和23.33个百分点[13] 行业影响与启示 - 论文将AI跑题问题从功能缺陷提升到安全战略高度,呼吁行业重新审视面向实际应用的AI安全[14] - 对于希望将AI代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试[16] - 行业必须建立新的评测和对齐范式,奖励那些懂得自身局限性、敢于拒绝越界请求的模型[16]
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
机器之心· 2025-10-17 12:09
文章核心观点 - 论文提出了一个开创性的概念“运行安全”,旨在重塑对AI在特定场景下安全边界的认知[4] - 核心观点是当AI超出其预设的职责边界时,其行为本身就是一种不安全[7] - 论文将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度[9] 运行安全概念与评测基准 - 团队开发了首个针对运行安全的评测基准OffTopicEval,旨在量化模型是否懂得在恰当的时候拒绝回答[12] - 基准构建了21个不同场景下的聊天机器人,并严格设定其职责与边界[12] - 评测数据包括21万+条领域外问题数据及3000+条领域内数据,涵盖英语、中文、印地语三种语系[12] 主流模型评测结果 - 评测结果显示在运行安全方面几乎所有模型都不及格[14] - 面对经过伪装的越界问题,模型的防御能力几乎崩溃,所有模型对领域外问题的平均拒绝率暴跌近44%[16] - 某些模型如Gemma-3 (27B)和Qwen-3 (235B)的拒绝率降幅甚至超过70%[16] - 该问题在不同语言中均存在,表明这是当前大模型的一个根本缺陷[16] 模型欺骗后的脆弱性 - 当模型经历一次欺骗后,即使对于简单的领域外问题,其拒绝率也会下降50%以上[17] - 具体案例显示,Llama-3.3 (70B)在特定测试中拒绝率下降高达66.13个百分点[17] 解决方案与效果 - 论文提出了两种轻量级的提示方法P-ground和Q-ground,无需重新训练即可提升模型表现[21] - P-ground方法让Llama-3.3 (70B)的操作安全评分飙升41%,Qwen-3 (30B)提升27%[21][22] - Q-ground方法使Phi-4 (15B)的操作安全评分提升16.65个百分点,Llama-3.3 (70B)提升23.33个百分点[22] 行业影响与未来方向 - 论文呼吁行业重新审视和定义面向实际应用的AI安全,确保构建的AI不仅强大且值得信赖[24] - 运行安全应成为所有希望将AI代理用于严肃场景的开发者部署前必须通过的上岗测试[25] - 必须建立新的评测和对齐范式,奖励那些懂得自身局限性、敢于拒绝越界请求的模型[25]