掩码安全性（Mask - Aware Safety）

搜索文档

量子位· 2025-07-23 12:10

扩散语言模型(dLLMs)技术特性 - 扩散语言模型具备并行解码、双向上下文建模能力，支持灵活插入masked token进行解码，显著提升文本生成效率[1] - 相比传统自回归模型，dLLMs可一次性生成多个位置词汇，更擅长文本插入、改写和补全任务，应用场景覆盖交互式问答、代码生成及多模态领域[1] - 核心优势在于生成过程无顺序限制，支持任意位置掩码插入，模型设计目标为无条件预测上下文掩码[5] dLLMs安全漏洞研究 - 最新研究揭示dLLMs存在根本性架构缺陷，DIJA攻击框架无需训练或修改参数即可诱导模型生成有害内容，攻击成功率(ASR-k)最高达99%[2][4][18] - 安全短板源于三大设计特性：双向建模导致掩码可被诱导填充、并行解码缺乏逐位审查机制、当前对齐训练仅针对整体输入输出[19][20][22][23] - 实验显示DIJA对4款主流dLLMs攻击效果显著，在JailbreakBench基准上ASR-e比最优基线提升78.5%，StrongREJECT分数提升37.7[21] DIJA攻击技术细节 - 采用全自动攻击管线，利用Qwen2.5/GPT-4o实现零人工提示词生成，突破传统越狱需精心设计prompt的限制[8][10] - 核心策略包括：多样化提示词生成（覆盖多类危险行为）、多粒度掩码策略（整段/关键动词掩码）、上下文对齐插入（增强隐蔽性）[11] - 攻击提示构造为掩码文本交错形式，即使模型识别危险指示仍会输出违规内容，ASR-e指标普遍超过55%[6][9][17] 行业影响与未来方向 - 研究标志"掩码安全性"(Mask-Aware Safety)成为dLLMs安全新课题，需开发局部风险评分和掩码内容审查器等专有防护机制[25] - 建议重构对齐训练流程，将控制粒度从句子级细化至token级，建立基于掩码位置的拒绝机制[25] - 当前dLLMs防御力呈现分化，Dream-Instruct安全性最佳（ASR-e 0%），MMaDA-MixCoT最脆弱（ASR-e 81%）[14][18]

Artificial Intelligence

扩散语言模型（dLLMs）

掩码安全性（Mask - Aware Safety）

Artificial Intelligence

扩散语言模型（dLLMs）