掩码安全性(Mask - Aware Safety)

搜索文档
四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷
量子位· 2025-07-23 12:10
扩散语言模型(dLLMs)技术特性 - 扩散语言模型具备并行解码、双向上下文建模能力,支持灵活插入masked token进行解码,显著提升文本生成效率[1] - 相比传统自回归模型,dLLMs可一次性生成多个位置词汇,更擅长文本插入、改写和补全任务,应用场景覆盖交互式问答、代码生成及多模态领域[1] - 核心优势在于生成过程无顺序限制,支持任意位置掩码插入,模型设计目标为无条件预测上下文掩码[5] dLLMs安全漏洞研究 - 最新研究揭示dLLMs存在根本性架构缺陷,DIJA攻击框架无需训练或修改参数即可诱导模型生成有害内容,攻击成功率(ASR-k)最高达99%[2][4][18] - 安全短板源于三大设计特性:双向建模导致掩码可被诱导填充、并行解码缺乏逐位审查机制、当前对齐训练仅针对整体输入输出[19][20][22][23] - 实验显示DIJA对4款主流dLLMs攻击效果显著,在JailbreakBench基准上ASR-e比最优基线提升78.5%,StrongREJECT分数提升37.7[21] DIJA攻击技术细节 - 采用全自动攻击管线,利用Qwen2.5/GPT-4o实现零人工提示词生成,突破传统越狱需精心设计prompt的限制[8][10] - 核心策略包括:多样化提示词生成(覆盖多类危险行为)、多粒度掩码策略(整段/关键动词掩码)、上下文对齐插入(增强隐蔽性)[11] - 攻击提示构造为掩码文本交错形式,即使模型识别危险指示仍会输出违规内容,ASR-e指标普遍超过55%[6][9][17] 行业影响与未来方向 - 研究标志"掩码安全性"(Mask-Aware Safety)成为dLLMs安全新课题,需开发局部风险评分和掩码内容审查器等专有防护机制[25] - 建议重构对齐训练流程,将控制粒度从句子级细化至token级,建立基于掩码位置的拒绝机制[25] - 当前dLLMs防御力呈现分化,Dream-Instruct安全性最佳(ASR-e 0%),MMaDA-MixCoT最脆弱(ASR-e 81%)[14][18]