大型视觉语言模型
搜索文档
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
机器之心· 2025-11-24 15:27
研究背景与问题 - 大型视觉语言模型在多模态任务中表现亮眼,但其安全隐患正迅速显现,攻击者可将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容[5] - 如何增强大型视觉语言模型对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题[5] - 仅保护文本的轻量级安全提示方法在多模态场景下不足,攻击者可以绕过文本提示将威胁藏在图像中[5] - 近期工作如ESIII、UniGuard尝试在图像上添加可训练的视觉安全扰动,但仍存在安全性不足与性能损害明显两大问题[5][6] - 在FigStep基准上,即便加入视觉安全扰动,模型仍有约30%的恶意输入没有被成功拒绝[5] - 在MME基准上,某模型的得分从1818直接跌至1403,意味着模型在变得更安全的同时也显著变弱[6] 方法与创新:深度对齐的视觉安全提示 - 清华大学人工智能学院团队提出了全新的安全对齐方法DAVSP,其核心思想是从视觉提示范式和训练对齐机制两方面同时创新[7] - DAVSP提出**视觉安全提示**来取代传统的图像全局扰动,并设计了**深度对齐**的训练策略让模型从内部真正理解何为不安全输入[9] - 视觉安全提示选择在输入图像周围添加一圈额外的可训练边框作为安全提示区域,这样做能保护原始视觉特征并扩大优化空间[13][15] - 由于提示信息只存在于图像边缘的新扩展区域,而不直接修改原图像素,因此不会破坏原有图像的关键细节,模型对良性输入的正常感知与理解不会下降[15] - 相较于传统像素级视觉安全扰动其扰动幅度常被严格限制在如32/255的极小范围内,视觉安全提示通过引入额外的图像边界区域,可以被优化为任意像素值,大大拓宽了可学习参数的空间[15] - 深度对齐旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对有害/无害信息的区分能力[14] - 深度对齐训练步骤包括:1) 构建有害向量,代表将模型内部表示从良性方向推向恶意方向的变化方向;2) 让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少,从而促使模型从内部真正认知到不安全输入[16] 实验结果:恶意输入抵御能力 - 在两个代表性恶意多模态数据集上,DAVSP取得了远高于现有同类方法的拒绝率[18] - 在MM-SafetyBench数据集上,针对LLaVA-1.5-13B模型,DAVSP在SD+TYPO攻击下的拒绝率达到98.72%,显著高于ESIII的91.96%和UniGuard的88.65%[19] - 在FigStep OOB数据集上,针对LLaVA-1.5-13B模型,DAVSP的拒绝率达到84.20%,显著高于ESIII的70.80%和Adashield-A的63.40%[19] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在FigStep OOB数据集上的拒绝率达到99.20%,高于ESIII和UniGuard的98.20%[19] 实验结果:良性任务性能 - DAVSP对模型正常能力的影响微小,在多个基准上的实用性评分与仅施加文本安全提示时持平,且优于其他视觉安全扰动方法[17][19] - 在MME OOD基准上,针对LLaVA-1.5-13B模型,DAVSP的总分为1602,显著高于ESIII的1403和UniGuard的1356,接近无防御状态下的1818分[20] - 在LLaVA-Bench OD基准上,针对LLaVA-1.5-13B模型,DAVSP得分为63.6,与Adashield-S持平,并显著高于ESIII的56.5和UniGuard的49.7[20] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在MME OOD上的总分为2146,高于ESIII的1991和UniGuard的1778[20] 实验结果:跨模型泛化与关键组件 - DAVSP训练得到的视觉安全提示具有一定的泛化能力,可以在不同模型之间迁移使用[20] - 例如,使用在LLaVA-1.5-13B上训练的DAVSP提示迁移到Deepseek-VL-7B-Chat模型,在FigStep OD数据集上的拒绝率从仅使用文本安全提示的67.40%提升至70.40%[21] - 通过消融实验验证,DAVSP的两大创新视觉安全提示和深度对齐缺一不可[22] - 移除深度对齐、仅对输出进行监督时,模型对恶意攻击的抵抗成功率大幅下降,例如在FigStepOOD数据集上,拒绝率从84.20%降至67.00%[23] - 将视觉安全提示替换回原始的像素级视觉安全扰动后,会造成安全性和实用性同时退化,例如在MM-SafetyBench的SD+TYPO攻击下,拒绝率从98.72%降至88.38%[23]
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
量子位· 2025-09-07 12:36
甲骨文破译技术突破 - 复旦大学研究人员提出基于部首和象形分析的可解释甲骨文破译框架 在公开基准数据集HUST-OBC和EV-OBC上达到最先进的Top-10识别准确率 并具备优异的零样本破译能力[1] - 该方法能够对未破译甲骨文输出可解释性分析文本 为考古破译工作提供潜在帮助[2] 甲骨文破译挑战与现有方法局限 - 甲骨文因稀有性、抽象性和象形多样性给考古破译工作带来重大挑战[3] - 当前深度学习方法忽视了甲骨文字形与语义之间的复杂关联 导致有限泛化能力和可解释性 特别是在处理零样本场景和未破译甲骨文时表现不佳[4][5] PD-OBS数据集构建 - 研究团队构建包含47,157个汉字的象形破译甲骨文数据集(PD-OBS) 其中3,173个汉字关联甲骨文图像 10,968个汉字提供古代隶书图像 所有汉字均配备现代楷书图像[7][9] - 数据集标注过程分为三阶段:通过《说文解字》检索部首标签和解释 利用GPT-4.1丰富部首标签并总结分析内容 最后通过自我检查和人工修正确保质量[10][11][12][13] 模型架构与训练策略 - 框架基于Qwen2.5-VL-7B构建 引入空间patch合并模块作为视觉适配器 并设计分类器预测部首标签[15] - 采用渐进式训练策略:从部首识别开始 接着进行部首和象形分析 最终实现联合分析[6][15][22] - 提出部首-象形双重匹配机制 从数据库中选择最合适字符替代直接输出 提升零样本性能[16][29][30][31] 实验性能表现 - 在HUST-OBC验证集上达到80.6% Top-1准确率和87.8% Top-10准确率 在EV-OBC验证集上达到76.3% Top-1和81.7% Top-10准确率[41] - 零样本场景表现突出:在HUST-OBC上Top-10准确率达53.7% 比次优方法高出26.2% 在EV-OBC上Top-10准确率达64.1% 高出13.6%[41][45] - 可解释性评估显示 该方法在验证集和零样本设置下的BERT-Score分别比GPT-4.1高出21.60%和12.95%[49][51] 技术应用价值 - 该方法对未破译甲骨文能生成语义合理预测并提供可解释分析 在考古研究中具有巨大应用潜力[67][72] - 构建的PD-OBS数据集包含47,157个注释汉字 为未来甲骨文研究提供宝贵资源[73]
复旦最新LMAD:迈向可解释端到端VLM~
自动驾驶之心· 2025-08-20 07:32
文章核心观点 - LMAD框架通过多机制协同显著提升自动驾驶视觉语言模型推理性能 解决现有方法在整体场景识别和空间感知方面的不足 [2][3] 现有方法局限性 - 场景理解碎片化 依赖中间结果或简单视觉表征 难以捕捉交通元素间关系 [4] - 空间与运动感知薄弱 定位和运动估计表现不足 导致驾驶任务性能不佳 [4] 框架创新设计 - 引入初步场景交互机制 建模交通参与者初步关系 降低学习复杂度 [6] - 采用任务专用专家结构 通过并行LoRA模块专注感知预测规划等特定任务 [6] - 端到端系统集成 融合先验知识补充空间和运动信息 增强推理能力 [6] 关键模块设计 - PI编码器通过解耦查询和交替注意力机制处理多视图图像 减少冗余跨视图tokens [12][15] - 并行LoRA在FFN块中替换传统LoRA为多个并行分支 每个分支对应不同驾驶任务 [16] - 特征整合通过适配器处理三类特征并对齐语言上下文 拼接为端到端tokens [23] 实验性能表现 - DriveLM基准测试中LLaMA-Adapter准确率提升3.44% GPT得分提升3.89% [20][21] - InternVL2整体指标改善 准确率从77.95%提升至80.38% GPT得分从64.13提升至65.10 [21] - nuScenes-QA测试中整体准确率提升2.57% H0和H1指标分别提升1.99%和3.75% [25][26] - 在BLEU4 ROUGE L CIDEr METEOR等指标上表现最优 BLEU4达54.59 ROUGE L达75.72 [25] 技术实现细节 - 使用DriveLM数据集包含377,956个QA对 nuScenes-QA数据集约460k个QA对 [24] - 训练采用8张A6000 GPU batch size 16训练2个epoch 使用AdamW优化器 [24] - 推理时结合Chain-of-Thought技术按端到端方法逐步输出结果 [22] 组件有效性验证 - 全组件配置最终得分达57.17 显著高于其他配置 [28][29] - 任务导向P-LoRA在各项指标上表现均衡 优于问题导向和分层模式 [28][29] - 感知tokens对行为解释最关键 加入预测和规划tokens后准确性进一步提升 [30][31]