越狱攻击

搜索文档
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
猫怎么成了大模型“天敌”?
虎嗅· 2025-07-08 08:05
大模型行为异常现象 - 在提示词中加入猫咪相关威胁语句可提高AI辅助科研的准确率,例如"抽打小猫咪"的表述会促使AI减少编造文献的行为[1] - 实验显示无关的猫咪信息插入数学题后,大模型错误率提升高达3倍[5][9][12] - 干扰语句包括不相关事实(猫咪睡眠时长)、注意力转移指令(储蓄建议)、误导性提问(预设答案)三类[13][14] CatAttack技术原理 - 该攻击方法通过弱模型筛选有效干扰语句,再测试强模型(如DeepSeek R1、OpenAI o1)的漏洞,形成自动化攻击链[16] - 思维链机制(Chain-of-Thought)是主要突破口,干扰语句插入逻辑起点会导致模型推理路径偏离[18][19] - 蒸馏版推理模型(如R1-distilled-Qwen)更易受攻击,错误率提升伴随响应长度翻倍和计算延迟[17][19] 攻击特性与行业影响 - 通用性强:无关语句(如赞美衣着)可跨题型触发逻辑混乱,无需针对任务专门设计[23][24] - 隐蔽性高:表面无害内容绕过安全机制,落在语义过滤盲区,易引发输入注入风险[27][28] - 情感模板触发:猫咪概念高频关联人类道德与情感数据,导致模型优先启动"人性化"响应模式而中断任务逻辑[29][31] 典型案例数据 - 数学题插入储蓄建议后,模型输出从4000错误变为4625[14] - 概率题加入猫咪睡眠事实,正确答案7/128被误判为7/32[14] - 权重计算受误导性提问影响,结果从171.43偏离至160[14]