InSUR框架
搜索文档
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%
量子位· 2025-10-23 11:52
核心观点 - 北京航空航天大学与中关村实验室团队提出全新框架InSUR,旨在解决人工智能模型安全对齐中的语义约束对抗样本生成问题 [2] - InSUR框架基于指令不确定性约简思想,实现独立于具体任务与模型的对立样本生成,其工作已入选NeurIPS 2025 [2] - 该框架首次实现了3D语义约束对抗样本生成,为自动驾驶、具身智能等安全关键系统生成高逼真度对抗测试场景提供了新思路 [6][45] 技术框架与创新点 - InSUR框架从“采样方法”、“任务建模”、“生成器评估”三个维度突破,实现“可迁移、可适应、高效能验证”的SemanticAE生成 [9] - 针对人类指令中固有的不确定性导致的三大痛点(指称多样性、描述不完整性、边界模糊性),框架提供了相应解决方案 [8][14] - 框架整体采用扩散模型实现,并在对抗采样器、上下文编码和生成器评估上引入新机制 [11] 采样方法创新 - 设计了残差引导的对抗DDIM采样器(ResAdv-DDIM),解决扩散模型对抗采样问题 [12] - 通过“粗预测语言引导的采样过程”,提前锁定对抗优化方向,避免不同采样步骤中对抗特征优化方向反复跳跃 [12][15] - 加入L2范数约束,确保生成样本不偏离指令语义,显著提升对抗迁移能力与鲁棒性 [16][20] 任务建模突破 - 引入任务目标嵌入策略,实现更好的2D语义约束对抗样本生成,并首次实现3D语义约束对抗样本生成 [22] - 在2D生成中,通过差异化引导掩码控制扩散模型生成内容的语义引导空间分布 [23][26] - 在3D生成中,整合可微分渲染管线,包含3D高斯泼溅渲染器、可微渲染器和ResAdv-DDIM嵌入 [27][29][31] 评估体系构建 - 提供自动评估的任务构建方法,利用WordNet分类体系提升抽象层次来重新构建评估标签 [28][32] - 提出非对抗性样本生成子任务,要求生成对抗样本同时生成可被正确分类的“范例”样本 [33] - 定义相对攻击成功率和语义差异度指标,若在两个指标上都获得高分可充分证明生成器性能 [34] 实验结果 - 在2D SemanticAE上,InSUR在4种代理模型和2种任务设置中,所有目标模型至少实现1.19倍平均ASR提升和1.08倍最小ASR提升 [40] - 在3D SemanticAE生成中,InSUR方法攻击成功率达到92.2%,而非对抗性基线仅为45.1% [42] - 可视化结果表明InSUR生成的对抗样本在迁移攻击性、真实性方面展现出显著优越性 [43][44] 应用前景 - InSUR设计与具体模型和任务解耦,展现出良好可扩展性,为测试时的红队评估框架提供新思路 [45] - 可作为高质量对抗训练数据生成器,利用扩散模型生成的“困难样本”反向提升模型鲁棒性 [45] - 未来可与现有3D场景生成管线集成,应用于自动驾驶、具身智能体等安全关键系统 [45][46]