多模态大语言模型(MLLMs)

搜索文档
从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心· 2025-09-04 07:33
大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段 能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制 诱导生成违法有害内容 可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理 尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络 构建越狱攻击分类体系 [3] - 梳理数据集 评估指标与防御策略的最新进展 指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战 从双视角对越狱技术分类 解析实验设计 体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算 为超深网络训练奠定基础 [8] - 模型性能随参数 数据量 算力增长而提升 从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态 易受训练数据偏见和提示操纵影响 早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险 多模态输入复杂性使攻击面显著扩大 攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性 多模态信息融合可能掩盖单一模态中的恶意信号 防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体 由核心 规划 工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行 带来最严峻的安全挑战 攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动 引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级 攻击阶段包括训练期和推理期攻击 干预层级包括提示层 推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击 白盒攻击可访问模型内部信息进行精准打击 黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成 搜索引擎检索和人工制作 按数据格式分为问答格式 指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足 语言与文化局限 多模态与多轮场景覆盖少三大局限 静态数据集难以跟上快速迭代 英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估 关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势 先用关键词词典初步筛选 再用LLM评估批量处理 最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著 例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御 输出防御和联合防御 输入防御源头阻断恶意输入 输出防御结果审核有害内容 联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御 对抗检测防御和混合策略防御 混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足 智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足 评估方法缺乏统一标准 攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集 优化评估框架建立统一标准 突破攻击技术泛化性 研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代 需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]
大模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展
欧米伽未来研究所2025· 2025-04-20 22:32
空间智能与大模型 - 空间智能是人类和机器对空间环境的感知、理解和运用能力,大语言模型(LLMs)展现出显著的空间智能潜力[2] - 大模型通过内化吸收(预训练数据)和外部调用(查询专业数据库)两种方式获取空间知识[3] - 大模型存在"幻觉"现象和知识动态更新困难等空间记忆方面的挑战[3] 空间推理能力 - 抽象空间推理包括定性空间推理、几何推理和图论推理三个关键方向[5] - 大模型在处理多步骤传递性推理和复杂几何逻辑推演时准确率显著下降[5] - 当前大模型主要利用语言建模能力"模仿"空间任务,而非真正拥有深层空间认知机制[5] 微观尺度应用(具身智能) - 多模态大语言模型(MLLMs)推动机器人空间感知与理解能力提升[7] - 大模型用于生成环境三维表征并规划复杂操作序列[7] - 机器人空间交互面临多模态信息融合和动态环境适应等挑战[7] 中观尺度应用(城市空间智能) - 大模型结合卫星影像、街景图片和POI数据理解城市功能特征[8] - 用于城市知识图谱构建、交通流优化和规划决策支持[9] - 面临数据异构性、动态环境适应和决策可解释性等挑战[9] 宏观尺度应用(地球空间智能) - 大模型处理地球观测数据用于气候变化预测和自然资源管理[10] - 在气候科学领域提升天气预报精度和极端天气预警能力[10] - 地理学应用中结合GIS工具增强专业空间分析能力[10] 未来研究方向 - 需要建立跨领域、跨尺度的通用空间智能评估框架[13] - 城市空间智能需发展实时数据整合和因果推理能力[13] - 地球空间智能需加强多学科数据融合和物理约束整合[13]
大模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展
欧米伽未来研究所2025· 2025-04-20 22:32
空间智能与大模型 - 空间智能是人类和机器对空间的感知、理解和运用能力,大语言模型(LLMs)正展现出显著的空间智能潜力[1] - 大模型通过内化吸收(预训练数据)和外部调用(查询专业数据库)两种方式获取空间记忆与知识[4] - 大模型在空间记忆方面存在"幻觉"现象和知识动态更新两大挑战[5][6] 空间推理能力 - 抽象空间推理包括定性空间推理、几何推理和图论推理三大方向[7][8] - 当前大模型主要依赖语言建模能力"模仿"空间任务,而非真正具备深层空间认知机制[9] - 结构化推理框架、外部知识引导和监督学习是提升空间推理能力的潜在途径[9] 微观尺度应用(具身智能) - 机器人空间智能包含空间感知与理解、空间交互与导航两个关键阶段[11][12] - 多模态大语言模型(MLLMs)推动三维物体定位、场景语义理解等能力提升[12] - 面临多模态信息融合、动态环境适应和人类直觉模拟等挑战[14] 中观尺度应用(城市空间智能) - 大模型应用于城市空间理解与记忆、空间推理与智能两大方向[16][18] - 可结合卫星影像、街景图片、POI数据等多源信息构建城市知识图谱[17] - 面临数据异构性、环境动态性和决策可解释性三大挑战[19] 宏观尺度应用(地球空间智能) - 地球空间智能(ESI)处理卫星遥感、传感器网络等多源地球科学数据[20] - 大模型在气候科学领域可提升天气预报精度和极端天气预警能力[23] - 在地理学领域可与GIS工具结合完成专业空间分析任务[25] 未来发展方向 - 需建立跨领域、跨尺度的通用空间智能评估框架[29] - 城市空间智能需发展动态建模和因果推理能力[31][32] - 地球空间智能需加强跨学科合作和知识-数据融合[33] - 空间智能将与"世界模型"概念更紧密结合[34]
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈
量子位· 2025-02-26 11:51
多模态大语言模型对齐研究 - 现有先进模型缺乏与人类偏好的充分对齐 主要因为现有对齐研究集中于特定领域如减少幻觉问题 是否与人类偏好对齐可全面提升MLLM能力仍是未知数 [1] - 快手 中科院 南大合作从数据集 奖励模型和训练算法三个层面推动MLLM alignment发展 最终pipeline使不同基础模型在10个评估维度27个benchmark上取得一致性能增益 [1] - 基于提出的数据集和对齐算法对LLaVA-ov-7B模型微调后 conversational能力平均提升19.5% 安全性平均提升60% [1] MM-RLHF人类偏好数据 - 引入包含120k精细标注的偏好比较对数据集 含三个维度打分 排序 文本描述原因及平局标注 由50名标注人员和8名专家耗时两个月完成 在规模 样本多样性 标注粒度和质量等方面显著提升 [5] - 提出基于批评的奖励模型 首先生成批评再评分 相比传统标量奖励机制提供更好可解释性和更有信息量反馈 7B size模型在reward model benchmark优于现有公开72B-size MLLM [5] - 提出动态奖励缩放方法 通过根据奖励信号调整样本损失权重优化高质量比较对使用 提高数据使用效率 [5] 数据来源与标注 - 图像数据来源包括LLaVA-OV VLfeedback等共10M 视频数据主要来自SharedGPT-4-video 安全性数据来自VLGuard和自构造内容 [6] - 通过预定义类别均匀采样和knn聚类采样策略确保少数类样本足够和数据diversity 使用Qwen2-VL-72B等最先进MLLM生成响应 [6] - 标注包含有用性 真实性 伦理性三个维度 标注人员需提供打分依据 最终排名及依据 专家定期质量检查和互动评审保证标注质量 [7] MM-RLHF奖励模型创新 - 标准奖励模型通过预训练LLM用线性奖励头输出标量奖励值 难以充分利用人类注释丰富信息且透明性不足 [8] - 提出基于批评的训练框架 模型首先生成批评再基于批评打分 批评生成与打分部分共同作用确保更细致评价 [9] - 通过GPT-4o增强人工注释使其更详细流畅 提高批评质量 训练时批评生成与奖励头训练同时进行 测试时先生成批评再得最终得分 [9] 性能评估结果 - 模型框架简单且在多个基准测试表现与GPT-4o媲美甚至超越 在自定义基准测试中远超GPT-4o 验证其作为训练算法奖励信号有效性 [10] - 奖励头直接使用偏好数据集训练时ACC+稳定在50% 引入人工注释作为学习目标ACC+提升5% 通过GPT-4o扩展人工注释最终ACC+提高17% 使用人工批评时ACC和ACC+均接近90% [10] MM-DPO方法 - MM-DPO将查询下所有可能响应对纳入训练 每对不同排名响应视为有效比较对 捕捉更细粒度排序信息 [12] - 引入动态奖励缩放机制 根据奖励差距动态调整更新强度 优先利用高置信度样本对 采用MM-RLHF-Reward-7B模型计算奖励差距 [13] - MM-DPO在各类benchmark表现不错性能增益 对超参数不敏感 多数情况下能明显提升高质量pair利用效率 [14] 综合评估表现 - 评估涵盖10个维度27个基准 包括图表与文档理解 OCR 幻觉检测等 自构建多模态安全性基准MM-RLHF-SafeBench评估安全性与鲁棒性 [15] - 对齐后模型在会话基准平均提高超10% 不安全行为减少至少50% WildsVision任务胜率提高至少50% 在幻觉 数学推理等多领域显著提升 [17] - 不同模型在对齐过程中表现不同性能趋势 对超参数设置偏好各异 需根据具体模型定制化调整以获得最佳对齐效果 [18] 小规模MLLM局限性 - 小规模MLLM(参数少于7B)通过自我提升实现全面性能提升面临重大挑战 主要因模型容量限制和奖励信号质量局限性 [19] - 在具挑战性任务如多项选择题或科学推理任务 小模型即使大量采样也难以生成正确答案 现有多模态奖励模型在更广泛领域无法提供有效奖励信号 [20] 未来研究方向 - 提出MM-RLHF高质量细粒度数据集 旨在全面提升多个维度性能 在几乎所有评估基准观察到显著持续提升 [21] - 未来工作将重点利用数据集丰富注释粒度与先进优化技术 结合高分辨率数据解决特定基准局限性 使用半自动化策略高效扩展数据集 [21]