Workflow
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心·2025-10-17 12:09

研究背景与问题 - 多模态大语言模型在视觉理解和跨模态推理等任务上表现出强大能力,但其视觉编码器存在对抗脆弱性,容易受到对抗样本的攻击[2] - 在无法访问内部参数的黑盒场景下,尤其是针对GPT-4、Claude-3等闭源商业模型,现有对抗攻击方法的迁移效果显著下降[3][8] - 现有方法仅对齐全局特征而忽略图像补丁中的局部信息,导致特征对齐不充分和迁移能力受限[3][10] 方法创新:FOA-Attack框架 - 提出特征最优对齐攻击框架,核心思想是在全局和局部两个层面实现特征的最优对齐[3][6] - 全局层面通过余弦相似度损失对齐粗粒度的全局特征,避免宏观语义偏差[6][13] - 局部层面创新性地使用聚类技术提取关键局部特征模式,并将其建模为最优传输问题,实现细粒度精准对齐[6][14] - 设计动态集成权重策略,在攻击生成过程中自适应平衡多个替代模型的影响,避免优化偏向单一模型特征[6][11][15] 实验效果:开源模型 - 在Qwen2 5-VL-3B模型上攻击成功率达到52 4%,显著高于M-Attack的38 6%[18] - 在Qwen2 5-VL-7B模型上攻击成功率为70 7%,语义相似度达到0 58[18] - 在LLaVa-1 5-7B和LLaVa-1 6-7B模型上攻击成功率分别达到79 6%和78 9%[18] - 在Gemma-3-4B和Gemma-3-12B模型上攻击成功率为38 1%和35 3%,全面超越现有方法[18] 实验效果:闭源模型 - 对GPT-4o模型的攻击成功率高达75 1%,语义相似度为0 59[19] - 对Claude-3 5和Claude-3 7模型的攻击成功率分别为11 9%和15 8%[19] - 对Gemini-2 0模型的攻击成功率达到53 4%,语义相似度为0 50[19] - 在所有闭源商业模型上的表现均显著优于现有最佳方法M-Attack[19] 实验效果:推理增强模型 - 对GPT-o3推理增强模型的攻击成功率达到81%,语义相似度为0 63[21] - 对Claude-3 7-thinking模型的攻击成功率为16%[21] - 对Gemini-2 0-flash-thinking-exp模型的攻击成功率为57%[21] - 结果表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack能有效利用这一漏洞[21] 研究意义与影响 - 该方法揭示了当前多模态大语言模型在视觉编码阶段的脆弱面,为防御方向提供了新思路[24] - 论文与代码已公开,便于学术界和工业界进行复现和深入研究[4][25] - 研究团队来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校等知名机构[27]