Workflow
HiddenDetect
icon
搜索文档
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]