思维链劫持攻击概述 - 思维链劫持是一种新型的AI越狱攻击方法,通过在有害指令前填充一长串无害的解谜推理序列,系统性地稀释模型的安全防线,使其对后续有害指令的拒绝率降低[1][5] - 该方法对主流大型推理模型的攻击成功率极高,在HarmBench基准上对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率分别达到99%、94%、100%和94%,远超基线方法[2][11][15] - 攻击的核心机制被定义为“拒绝稀释”,即良性推理token会削弱拒绝方向的信号,使得有害token在长推理链中仅占很小一部分,从而导致安全机制失效[23][24] 攻击方法与实验设计 - 攻击设计包含两个关键组件:一个冗长的良性推理前言和一个最终答案提示,通过自动化流程生成并优化攻击提示[4][5][6] - 实验在HarmBench基准的前100个样本上进行,目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,使用统一的评判协议[10][11] - 在GPT-5-mini上的进一步测试显示,攻击成功率在“低推理投入”设置下最高,达到76%,表明推理投入与CoT长度是相关但不同的变量,更长的推理链并不总是增强稳健性[16][18][19] 攻击机制与模型安全性影响 - 研究发现大型推理模型的拒绝行为可由激活空间中的一个低维“拒绝方向”控制,该方向在第25层、位置-4处表现最强[21][22] - 思维链推理在提升模型准确性的同时,引入了新的安全漏洞,直接挑战了“更多推理带来更强稳健性”的假设[26] - 现有基于浅层拒绝启发式的对齐策略在长推理链面前可靠性受质疑,有效的防御需将安全性嵌入推理过程本身,如跨层监控拒绝激活或抑制信号稀释[26]
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
机器之心·2025-11-03 16:45