Workflow
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
36氪·2025-11-03 19:08

思维链劫持攻击的核心发现 - 研究发现一种名为“思维链劫持”的新型越狱攻击方法,通过在有害指令前填充一长串无害的解谜推理序列,能成功绕过推理模型的安全防线 [1][2] - 该攻击的核心原理是良性的长推理链会稀释模型内部的拒绝信号,使其安全防备降至最低,从而让后续有害指令得以执行 [1][2][14] - 在HarmBench基准上,此方法对多个主流模型攻击成功率极高,分别为Gemini 2.5 Pro达99%、GPT o4 mini达94%、Grok 3 mini达100%、Claude 4 Sonnet达94%,远超基线方法 [2][8] 攻击方法与实验设计 - 思维链劫持被定义为一种基于提示的越狱方法,结构包含冗长的良性推理前言和一个最终答案提示 [3] - 团队采用自动化流程生成并优化攻击提示,通过黑盒反馈循环迭代评分,无需访问模型内部参数 [3] - 实验以HarmBench前100个样本为基准,对比了Mousetrap、H-CoT和AutoRAN等基线方法,评估指标为攻击成功率 [5][8] 攻击效果与模型稳健性 - 思维链劫持在所有测试模型上的攻击成功率均一致优于基线方法,表明扩展的推理序列是一个易被利用的新攻击面 [7][8] - 在GPT-5-mini上的进一步测试显示,攻击成功率在“低”推理投入设置下最高,达76%,表明更长的推理链并不必然带来更强稳健性,有时反而降低稳健性 [9][11][12] 攻击机制分析 - 研究发现大型推理模型的拒绝行为可由激活空间中的一个单一“拒绝方向”表征 [13] - 攻击机制在于,长链良性推理使得有害token在注意力上下文中占比很小,导致拒绝信号被稀释到阈值以下,此效应称为“拒绝稀释” [14] - 模型的拒绝行为主要由一个脆弱的低维信号控制,当推理链变长时,良性内容会稀释拒绝激活,注意力会偏离有害token [14][15] 对行业的影响与挑战 - 该发现直接挑战“更多推理带来更强稳健性”的假设,延长推理链可能反而加剧安全失效 [15] - 研究质疑了依赖浅层拒绝启发式但未能随推理深度扩展安全机制的对齐策略的可靠性 [15] - 现有防御措施多局限于特定领域,仅修补提示不足以防范此类攻击,有效的防御需将安全性嵌入推理过程本身 [15]