Workflow
从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心·2025-09-04 07:33

大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段 能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制 诱导生成违法有害内容 可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理 尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络 构建越狱攻击分类体系 [3] - 梳理数据集 评估指标与防御策略的最新进展 指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战 从双视角对越狱技术分类 解析实验设计 体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算 为超深网络训练奠定基础 [8] - 模型性能随参数 数据量 算力增长而提升 从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态 易受训练数据偏见和提示操纵影响 早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险 多模态输入复杂性使攻击面显著扩大 攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性 多模态信息融合可能掩盖单一模态中的恶意信号 防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体 由核心 规划 工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行 带来最严峻的安全挑战 攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动 引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级 攻击阶段包括训练期和推理期攻击 干预层级包括提示层 推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击 白盒攻击可访问模型内部信息进行精准打击 黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成 搜索引擎检索和人工制作 按数据格式分为问答格式 指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足 语言与文化局限 多模态与多轮场景覆盖少三大局限 静态数据集难以跟上快速迭代 英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估 关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势 先用关键词词典初步筛选 再用LLM评估批量处理 最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著 例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御 输出防御和联合防御 输入防御源头阻断恶意输入 输出防御结果审核有害内容 联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御 对抗检测防御和混合策略防御 混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足 智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足 评估方法缺乏统一标准 攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集 优化评估框架建立统一标准 突破攻击技术泛化性 研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代 需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]