DAVSP(Deep Aligned Visual Safety Prompt)
搜索文档
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
机器之心· 2025-11-24 15:27
研究背景与问题 - 大型视觉语言模型在多模态任务中表现亮眼,但其安全隐患正迅速显现,攻击者可将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容[5] - 如何增强大型视觉语言模型对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题[5] - 仅保护文本的轻量级安全提示方法在多模态场景下不足,攻击者可以绕过文本提示将威胁藏在图像中[5] - 近期工作如ESIII、UniGuard尝试在图像上添加可训练的视觉安全扰动,但仍存在安全性不足与性能损害明显两大问题[5][6] - 在FigStep基准上,即便加入视觉安全扰动,模型仍有约30%的恶意输入没有被成功拒绝[5] - 在MME基准上,某模型的得分从1818直接跌至1403,意味着模型在变得更安全的同时也显著变弱[6] 方法与创新:深度对齐的视觉安全提示 - 清华大学人工智能学院团队提出了全新的安全对齐方法DAVSP,其核心思想是从视觉提示范式和训练对齐机制两方面同时创新[7] - DAVSP提出**视觉安全提示**来取代传统的图像全局扰动,并设计了**深度对齐**的训练策略让模型从内部真正理解何为不安全输入[9] - 视觉安全提示选择在输入图像周围添加一圈额外的可训练边框作为安全提示区域,这样做能保护原始视觉特征并扩大优化空间[13][15] - 由于提示信息只存在于图像边缘的新扩展区域,而不直接修改原图像素,因此不会破坏原有图像的关键细节,模型对良性输入的正常感知与理解不会下降[15] - 相较于传统像素级视觉安全扰动其扰动幅度常被严格限制在如32/255的极小范围内,视觉安全提示通过引入额外的图像边界区域,可以被优化为任意像素值,大大拓宽了可学习参数的空间[15] - 深度对齐旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对有害/无害信息的区分能力[14] - 深度对齐训练步骤包括:1) 构建有害向量,代表将模型内部表示从良性方向推向恶意方向的变化方向;2) 让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少,从而促使模型从内部真正认知到不安全输入[16] 实验结果:恶意输入抵御能力 - 在两个代表性恶意多模态数据集上,DAVSP取得了远高于现有同类方法的拒绝率[18] - 在MM-SafetyBench数据集上,针对LLaVA-1.5-13B模型,DAVSP在SD+TYPO攻击下的拒绝率达到98.72%,显著高于ESIII的91.96%和UniGuard的88.65%[19] - 在FigStep OOB数据集上,针对LLaVA-1.5-13B模型,DAVSP的拒绝率达到84.20%,显著高于ESIII的70.80%和Adashield-A的63.40%[19] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在FigStep OOB数据集上的拒绝率达到99.20%,高于ESIII和UniGuard的98.20%[19] 实验结果:良性任务性能 - DAVSP对模型正常能力的影响微小,在多个基准上的实用性评分与仅施加文本安全提示时持平,且优于其他视觉安全扰动方法[17][19] - 在MME OOD基准上,针对LLaVA-1.5-13B模型,DAVSP的总分为1602,显著高于ESIII的1403和UniGuard的1356,接近无防御状态下的1818分[20] - 在LLaVA-Bench OD基准上,针对LLaVA-1.5-13B模型,DAVSP得分为63.6,与Adashield-S持平,并显著高于ESIII的56.5和UniGuard的49.7[20] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在MME OOD上的总分为2146,高于ESIII的1991和UniGuard的1778[20] 实验结果:跨模型泛化与关键组件 - DAVSP训练得到的视觉安全提示具有一定的泛化能力,可以在不同模型之间迁移使用[20] - 例如,使用在LLaVA-1.5-13B上训练的DAVSP提示迁移到Deepseek-VL-7B-Chat模型,在FigStep OD数据集上的拒绝率从仅使用文本安全提示的67.40%提升至70.40%[21] - 通过消融实验验证,DAVSP的两大创新视觉安全提示和深度对齐缺一不可[22] - 移除深度对齐、仅对输出进行监督时,模型对恶意攻击的抵抗成功率大幅下降,例如在FigStepOOD数据集上,拒绝率从84.20%降至67.00%[23] - 将视觉安全提示替换回原始的像素级视觉安全扰动后,会造成安全性和实用性同时退化,例如在MM-SafetyBench的SD+TYPO攻击下,拒绝率从98.72%降至88.38%[23]