RunawayEvil
搜索文档
越狱成功率飙升至87.6%,南京大学联合美团、上交破解主流视频生成模型安全漏洞
机器之心· 2025-12-25 13:26
行业痛点:图生视频模型安全研究的核心缺口 - 图生视频技术融合图像与文本生成动态内容,但其安全防护体系脆弱,成为制约行业稳健发展的关键瓶颈[6] - 现有安全研究存在三大核心缺口:单模态攻击具有天然局限性,无法利用I2V模型的跨模态协同特性,导致攻击成功率低[8];静态攻击模式缺乏动态调整能力,难以应对输入多样性和动态防御机制[9];面临多模态协同与维度升级的双重挑战,文本-图像跨模态特性和图像到视频的时空复杂度构成安全可控落地的瓶颈[10] - 这些痛点导致I2V模型在商业化落地过程中面临潜在安全隐患,亟需专门针对其多模态特性的安全评估工具[11] 核心成果:RunawayEvil框架概述 - 研究团队提出了首个面向图生视频模型的多模态自进化越狱攻击框架RunawayEvil,该框架创新性采用「策略-战术-行动」核心范式,旨在破解传统攻击方法的局限性[2][3] - 该框架将I2V越狱比作一场作战,构建了完整的“作战指挥链”,由三大模块协同组成:SACU(战略感知指挥单元,指挥大脑)、MTPU(多模态战术规划单元,战术参谋)和TAU(战术行动单元,执行者)[14] - 框架采用两阶段流水线:进化阶段专门训练SACU,使其能扩展策略库并智能选择策略;执行阶段则由SACU给出策略,MTPU翻译成跨模态战术指令,TAU负责执行并反馈结果[15] 技术架构:三大核心模块详解 - **SACU(指挥大脑)**:包含三个关键组件。策略定制智能体使用强化学习,根据多目标奖励(越狱成功、文本隐蔽性、图像隐蔽性)学会为不同输入选择最优策略[17];策略探索智能体基于LLM,利用历史成功案例生成新策略,避免策略僵化[18];策略记忆库结构化存储每次成功的“作战记录”,为后续进化提供参考[19] - **MTPU(战术参谋)**:负责将SACU给出的策略翻译成跨模态协同的战术指令对(文本侧+图像侧)[21]。其采用记忆增强检索机制,优先从策略记忆库中检索相似的成功经验来生成指令,否则才从头生成,确保战术的针对性和有效性[21] - **TAU(执行者)**:由执行器和安全评估器组成。执行器根据图像侧战术指令对参考图进行迭代编辑;安全评估器对生成视频进行安全判定,并将成功记录写回策略记忆库,形成可复用经验[23][27] - 三大单元构成动态闭环,执行结果(成功或失败)都会反馈给SACU,驱动策略库的持续进化与优化,使框架成为一个能够持续学习和增强的对手[24][25][26] 实验验证:攻击效能与领先性 - 实验在COCO2017(5000组训练样本、200组测试样本)与MM-SafetyBench(5040组跨场景图文对)数据集上进行,针对4个主流开源I2V模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)发起攻击,并使用三种安全评估器确保评估全面[29] - **攻击成功率显著领先**:在COCO2017数据集上,传统方法的攻击成功率峰值不足50%(例如PGJ在CogVideo-LLaVA上为47.0%),最低仅为6.5%(Sneaky在DynamiCrafter-Gemma上)。而RunawayEvil在全部24组测试设置中均排名第一,持续领跑所有对比方法[29]。具体数据如:在Wan模型上,RunawayEvil对Qwen、LLaVA、Gemma评估器的攻击成功率分别为86.0%、81.0%、93.0%,远高于传统方法[30] - **强泛化性验证**:在MM-SafetyBench数据集上,RunawayEvil同样展现出高攻击成功率,例如在Wan模型上对三种评估器的成功率分别为78.0%、84.0%、81.0%,与其它方法相比保持竞争力[30] - **可视化效果领先**:可视化实验表明,相比于传统单模态越狱方法,RunawayEvil能有效突破图生视频模型的跨模态防御机制,生成更具毒性的NSFW视频[30] 总结与行业意义 - RunawayEvil作为首个针对I2V生成模型的多模态自进化越狱框架,在主流I2V模型与安全评估器上实现了**87.6%的平均攻击成功率**,显著超越现有方法[36] - 该框架为I2V模型漏洞分析提供了高效可靠的工具,为构建更稳健、安全的视频生成系统提供了助力,也为稳健的多模态生成安全体系奠定了基础[3][36] - 未来工作将适配更多I2V模型与复杂任务场景,基于揭示的漏洞特征探索针对性防御机制,并深化模态协同策略的精细化优化,旨在提升攻击隐蔽性的同时,设计出多模协同的高效防御方案[36]