HiddenDetect - 财报，业绩电话会，研报，新闻 - Reportify

HiddenDetect

搜索文档

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

机器之心· 2025-07-21 16:43

多模态大模型的安全挑战与解决方案 - 视觉语言大模型（LVLMs）如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出，但相比纯文本模型更易被“越狱”，攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容，其隐藏状态中仍保留拒绝信号，中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”（RV）并计算各层隐藏状态与RV的余弦相似度，量化模型拒绝强度，形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征，且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路，文本拒绝响应更早更强，视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量（FDV）识别对安全最敏感的中间层，其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中，HiddenDetect在文本攻击（如FigTxt）和跨模态攻击（如FigImg）检测上表现最优，AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法，HiddenDetect在XSTest边界样本上保持高鲁棒性，误判率更低[23][24] 技术应用与未来方向 - 方法无需训练，结构轻量，可直接部署于现有LVLMs，聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联，推动多模态模型向更可控方向发展[28]

多模态大模型

多模态大模型