从MLLM到Agent：万字长文览尽大模型安全进化之路！

大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制诱导生成违法有害内容可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络构建越狱攻击分类体系 [3] - 梳理数据集评估指标与防御策略的最新进展指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战从双视角对越狱技术分类解析实验设计体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算为超深网络训练奠定基础 [8] - 模型性能随参数数据量算力增长而提升从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态易受训练数据偏见和提示操纵影响早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险多模态输入复杂性使攻击面显著扩大攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性多模态信息融合可能掩盖单一模态中的恶意信号防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体由核心规划工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行带来最严峻的安全挑战攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级攻击阶段包括训练期和推理期攻击干预层级包括提示层推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击白盒攻击可访问模型内部信息进行精准打击黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成搜索引擎检索和人工制作按数据格式分为问答格式指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足语言与文化局限多模态与多轮场景覆盖少三大局限静态数据集难以跟上快速迭代英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势先用关键词词典初步筛选再用LLM评估批量处理最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御输出防御和联合防御输入防御源头阻断恶意输入输出防御结果审核有害内容联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御对抗检测防御和混合策略防御混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足评估方法缺乏统一标准攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集优化评估框架建立统一标准突破攻击技术泛化性研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]