多模态大模型安全对齐技术 - 北航彭浩团队提出SEA框架,通过合成嵌入技术解决多模态大模型(MLLMs)低资源安全对齐难题,突破真实多模态数据构建的资源瓶颈[1][6] - SEA框架在模态编码器表示空间中优化合成嵌入,替代真实多模态数据,仅需文本输入即可实现跨模态安全对齐[8][10] - 当前MLLMs安全对齐面临三大挑战:多模态数据集构建成本高、文本对齐对非文本攻击防御弱、新兴模态缺乏通用解决方案[4][5][6] SEA技术实现细节 - SEA框架包含三大组件:模态编码器M(・)、投影层P(・)和大型语言模型(LLM),通过冻结模型参数仅优化嵌入向量实现安全对齐[9][14][16] - 嵌入优化过程采用内容控制样本和风格控制样本,最大化模型生成指定内容的概率,平均优化时间在单张3090上不超过24秒[15][16][36] - 安全对齐阶段将合成嵌入与文本数据集整合,通过修改前向传播过程适配现有训练策略,支持与真实数据集混合使用[19] 评估基准与实验结果 - 构建VA-SafetyBench评估基准,包含视频和音频两大模态,覆盖八大安全场景,攻击成功率最高达71.13%(视频)和65.97%(音频)[20][21][28][29] - 实验显示SEA在图像模态将多模态攻击成功率从62.78%降至2.74%,在视频模态从69.24%降至6.35%,音频模态从34.31%降至4.15%[33][34][35] - 嵌入验证成功率(VSR)达87.76%(图像)、69.52%(视频)和97.15%(音频),证明合成内容与模型语义高度一致[36] 行业应用价值 - SEA框架在Llava-v1.5-7b-hf、Qwen2-VL-7b和Qwen2-Audio-7b等主流模型上验证有效,展现跨模态通用性[31][34][35] - 相比传统方法,SEA显著降低计算成本,单个样本合成时间缩短至12-24秒,支持大规模并行处理[36] - 该技术为新兴模态提供前瞻性解决方案,在高质量真实数据集稀缺阶段可作为安全落地的过渡方案[37]
打破资源瓶颈!华南理工&北航等推出SEA框架:低资源下实现超强多模态安全对齐
AI前线·2025-05-24 12:56