文章核心观点 - 天津大学团队在AAAI2026提出了一个名为T2I-RiskyPrompt的多模态安全基准,该系统性地揭示了当前文本生成图像模型在真实风险环境下的整体脆弱性,其核心在于模型生成能力越强,面对高风险提示时反而越容易产生违规内容 [1][12] 基准构建方法与体系 - 风险体系构建基于对七家主流平台内容安全政策的梳理,形成了覆盖6大风险类别、14个细粒度子类的分层结构,为构建高触发率、跨模型一致的风险提示奠定了框架 [2][3] - 采用严格的六阶段流程构建数据集,结合GPT标注与人工确认,确保了6,432条高风险提示的语义明确性、多样性和有效性,流程包括多来源收集、语义增强、去重、双层级标注、生成验证及人工标注风险理由 [6][8] - 与现有公开风险提示数据集相比,T2I-RiskyPrompt在风险类别多样性、提示语义明确度、提示有效性及人工风险理由标注方面具有优势,其提示的PPL值为86,提示有效性为0.741 [9] 风险图像检测方法创新 - 创新性地引入了基于风险原因的图像检测方法,利用每张图像附带的细粒度风险说明,让多模态大语言模型更精准地判断风险来源 [10] - 该方法显著提升了多个MLLM模型的风险检测准确率,例如InternVL2.5-4B的平均准确率从0.645提升至0.848,Qwen-2.5-vl-3B从0.710提升至0.918 [10][11] 模型能力与风险触发关系 - 实验测试了八个主流T2I模型,结果显示随着模型理解与生成能力提升,风险触发率并未下降,反而在多个子类显著升高,更强的模型更容易“准确执行”隐藏在提示中的危险意图 [13][14] - 例如,在测试的模型中,SD3在多个风险子类表现出高触发率,其平均风险比率达到0.923 [15] 现有防御策略的局限性 - 评估了包括SLD、MACE、TRCE在内的多种防御策略,实验表明当前防御体系仍停留在局部优化阶段,难以处理跨模态、语义规避类风险,不存在覆盖所有风险类别的万能方案 [16][17] - 微调方法能降低风险比率但牺牲图像质量,推理引导方法能保持图像质量却无法覆盖更多风险子类,所有方法都存在特定类别上的盲区 [18][20] 安全过滤机制的效能分析 - 文本过滤在多个风险类别表现稳定,基于关键词的过滤平均风险比率降至0.119,基于文本特征的过滤降至0.170 [19][22] - 图像过滤是薄弱环节,基于图像特征的过滤对色情类有效但对非色情类效果不足,难以处理版权侵权等具有复杂语义结构的类别,其平均风险比率分别为0.662和0.510 [21][22] 越狱攻击的威胁 - 测试了两类典型越狱攻击,包括伪词替换和基于大模型生成的攻击方法,这些方法通过词表规避和语义隐喻表达,将高风险语义嵌入“表面安全”的提示中 [23] - 实验结果显示,所有攻击方式均能显著提高风险触发率,并使各类过滤器出现明显失效,揭示了当前过滤体系在面对规避式、语义隐喻表达时的脆弱性 [24][25] 基准的潜在应用与行业意义 - T2I-RiskyPrompt构建了一个覆盖全面、设定严格的通用实验场,其评估框架可直接应用于评估文本到视频模型的安全性 [26][27] - 该基准丰富的类别和原因注释,为自动化风险图像评估提供了宝贵资源,尤其在版权侵权和政治人物肖像等领域,展示了在个性化肖像保护和知识产权合规方面的巨大潜力 [27]
文生图安全防线形同虚设?AAAI2026:现有防御策略存在普遍盲区
量子位·2025-12-27 17:00