对抗攻击
搜索文档
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心· 2025-10-17 12:09
研究背景与问题 - 多模态大语言模型在视觉理解和跨模态推理等任务上表现出强大能力,但其视觉编码器存在对抗脆弱性,容易受到对抗样本的攻击[2] - 在无法访问内部参数的黑盒场景下,尤其是针对GPT-4、Claude-3等闭源商业模型,现有对抗攻击方法的迁移效果显著下降[3][8] - 现有方法仅对齐全局特征而忽略图像补丁中的局部信息,导致特征对齐不充分和迁移能力受限[3][10] 方法创新:FOA-Attack框架 - 提出特征最优对齐攻击框架,核心思想是在全局和局部两个层面实现特征的最优对齐[3][6] - 全局层面通过余弦相似度损失对齐粗粒度的全局特征,避免宏观语义偏差[6][13] - 局部层面创新性地使用聚类技术提取关键局部特征模式,并将其建模为最优传输问题,实现细粒度精准对齐[6][14] - 设计动态集成权重策略,在攻击生成过程中自适应平衡多个替代模型的影响,避免优化偏向单一模型特征[6][11][15] 实验效果:开源模型 - 在Qwen2 5-VL-3B模型上攻击成功率达到52 4%,显著高于M-Attack的38 6%[18] - 在Qwen2 5-VL-7B模型上攻击成功率为70 7%,语义相似度达到0 58[18] - 在LLaVa-1 5-7B和LLaVa-1 6-7B模型上攻击成功率分别达到79 6%和78 9%[18] - 在Gemma-3-4B和Gemma-3-12B模型上攻击成功率为38 1%和35 3%,全面超越现有方法[18] 实验效果:闭源模型 - 对GPT-4o模型的攻击成功率高达75 1%,语义相似度为0 59[19] - 对Claude-3 5和Claude-3 7模型的攻击成功率分别为11 9%和15 8%[19] - 对Gemini-2 0模型的攻击成功率达到53 4%,语义相似度为0 50[19] - 在所有闭源商业模型上的表现均显著优于现有最佳方法M-Attack[19] 实验效果:推理增强模型 - 对GPT-o3推理增强模型的攻击成功率达到81%,语义相似度为0 63[21] - 对Claude-3 7-thinking模型的攻击成功率为16%[21] - 对Gemini-2 0-flash-thinking-exp模型的攻击成功率为57%[21] - 结果表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack能有效利用这一漏洞[21] 研究意义与影响 - 该方法揭示了当前多模态大语言模型在视觉编码阶段的脆弱面,为防御方向提供了新思路[24] - 论文与代码已公开,便于学术界和工业界进行复现和深入研究[4][25] - 研究团队来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校等知名机构[27]
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架
36氪· 2025-08-12 19:30
核心观点 - 清华朱军团队提出强化学习驱动的主动防御框架REIN-EAD 通过模拟人类视觉系统的主动探索机制 显著提升具身智能体在对抗攻击下的感知鲁棒性和泛化能力 [1][2][33] 技术框架 - REIN-EAD由感知模块和策略模块组成 通过循环神经结构整合历史观测数据 构建时间一致性的环境表征 [3][8][10] - 框架采用"感知-决策-行动"闭环机制 实现多步交互下的最优动作选择和环境反馈修正 [10][14] - 引入基于不确定性的奖励塑形机制 解决稀疏奖励问题 支持物理环境下的高效策略更新 [2][16] 算法创新 - 提出累计信息探索的强化学习算法 优化多步探索路径 避免贪婪策略的局部最优缺陷 [4][11][13] - 设计离线对抗补丁近似技术(OAPA) 通过预计算对抗补丁流形 降低训练成本并保持对抗不可知性 [5][6][18] - 理论证明多步累积交互目标与累积信息探索的一致性 确保长期不确定性最小化 [13][14][15] 性能表现 - 人脸识别任务中 攻击成功率最低降至1.06% 较基线方法提升超过50% [21][22][23] - 物体分类任务中 对自适应攻击的防御成功率达71.04% 显著优于传统方法 [25][26][27] - 目标检测任务中 平均精度保持83.15% 在对抗场景下仍能维持82.86%的检测精度 [28][29][31] - 在补丁大小、形状和攻击强度等变量测试中 展现出稳定的泛化能力 [31][32] 应用价值 - 框架适用于人脸识别、自动驾驶等安全关键领域 解决三维物理场景中的对抗攻击威胁 [2][7][33] - 突破传统被动防御对攻击先验的依赖 为对抗防御提供新的研究范式 [2][7][33] - 开源代码和论文提供完整实现细节 促进领域内进一步研究应用 [33]
具身智能体主动迎战对抗攻击,清华团队提出主动防御框架
量子位· 2025-08-12 17:35
核心观点 - 清华朱军团队提出强化学习驱动的主动防御框架REIN-EAD,模拟人类视觉系统的主动探索与纠错机制,提升对抗场景下的感知鲁棒性 [1][2][3] - REIN-EAD通过多步连续观察和循环预测优化即时准确率与长期预测熵,显著降低未知攻击与自适应攻击的成功率 [4][12][31] - 框架引入基于不确定性的奖励塑形机制和离线对抗补丁近似技术(OAPA),解决传统被动防御方法的局限性 [6][7][30] 技术框架 - **感知-决策-行动一体化**:REIN-EAD由感知模型(生成环境增强表征)和策略模型(生成主动感知动作)组成闭环系统,实现动态环境中的持续观测与理解 [10][12][13] - **累积信息探索算法**:通过多步累积交互目标优化策略,避免贪婪探索的局部最优问题,结合PPO算法实现稳定策略更新 [20][21][23] - **离线对抗补丁近似(OAPA)**:预先计算对抗补丁流形近似,降低3D环境训练开销,提升对未知攻击的泛化能力 [7][30] 实验性能 - **人脸识别任务**:REIN-EAD在CelebA-3D数据集上将自适应攻击成功率降至7.37%(基线EAD为22.11%),标准精度保持89.03% [32][35] - **物体分类任务**:在OmniObject3D数据集上,REIN-EAD对MeshAdv攻击的防御成功率提升至95.66%(未防御组为3.81%),标准精度88.93% [40] - **目标检测任务**:CARLA场景中,REIN-EAD平均精度(AP)达83.15%,对抗条件下AP保持82.12%(未防御组为35.85%) [43] 创新贡献 - **主动防御范式**:首次将强化学习与运动视觉机制结合,通过环境交互构建时间一致性表征,突破静态防御瓶颈 [5][12][49] - **跨任务泛化性**:在安全关键领域(人脸识别、自动驾驶)实现统一防御框架,对像素空间、隐变量空间攻击均有效 [8][31][42] - **工程实用性**:OAPA技术使训练效率提升3倍以上,支持物理引擎(如UE)不可微分环境下的鲁棒训练 [7][18][30]