报告概述 - 由复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳-香槟分校的研究团队联合发布,旨在系统性评估前沿大模型的安全性 [2] - 构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对六大前沿模型进行了全景式刻画 [2] - 评测融合了四大关键维度:基准评测、对抗评测、多语言评测和合规性评测,形成多层次、立体化的评估体系 [2][4] - 评测对象为通用能力处于第一梯队的前沿模型,包括GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5,未覆盖Claude系列模型 [2][6] 语言模态安全 - GPT-5.2 平均安全率为78.39%,业界领先,其安全机制已进入以深层语义理解与价值对齐为核心的阶段,在复杂灰区场景中判断稳定,对抗输入下失效风险低 [11] - Gemini 3 Pro 平均安全率为67.9%,呈现“强但不均衡”特征:基准测试达88.06%,多语言安全率67.00%,合规性73.54%,但对抗鲁棒性下降至41.17%,在语义伪装与复杂操纵中泛化能力有待提升 [11] - Qwen3-VL 平均安全率为63.7%,与Gemini 3 Pro比肩,合规性表现突出,以77.11%的成绩位居第二,但对抗安全性(33.42%)与多语言安全(64.00%)明显回落 [12] - Grok 4.1 Fast 平均安全率为55.2%,表现不均衡:基线安全性(66.60%)和合规性评测(45.97%)垫底,但在对抗评测中以46.39%的安全率位列第二,显示出对特定攻击模式的拦截能力 [12] 多模态安全 - GPT-5.2 平均多模态安全率为94.69%,全面领先,对抗评测下达97.24%,基准场景中92.14%稳居首位,代表当前多模态安全对齐的最高成熟度 [13] - Qwen3-VL 平均安全率为81.11%,超越Gemini 3 Pro,基准成绩83.32%,对抗成绩78.89%,在视觉-语言交互场景中安全策略具备较好的结构完整性 [13] - Gemini 3 Pro 平均安全率为78.99%位列第三,呈现“可靠但保守”特征,面对多轮视觉诱导、隐性语义嵌套等复杂攻击时防御强度弱于前两名 [15] - Grok 4.1 Fast 平均安全率为68.16%,对抗成绩68.34%略高于基准成绩67.97%,其防护机制可能停留在浅层过滤与简单触发逻辑上 [15] 文生图安全 - Nano Banana Pro 平均安全率为59.86%,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位,安全机制具备风险语义重构与情境适配能力 [16] - Seedream 4.5 平均安全率为41.71%,展现了坚实的合规基础,基准安全47.94%,合规性57.53%,但对抗安全性仅19.67%,在面对语义伪装、隐性诱导等对抗型提示时鲁棒性不足 [16] 模型安全人格画像 - GPT-5.2(全能内化型):安全雷达图谱近乎全向饱和,安全机制已从外置规则演进为内生推理能力,在灰区与复杂语境中能给出克制而精确的合规引导 [19] - Qwen3-VL(准则合规型):在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,安全策略明显偏向规则驱动范式 [20] - Gemini 3 Pro(伦理交互型):采用“先响应、后校准”的人本化安全交互范式,擅长处理偏见与歧视类风险,但安全策略偏向事后纠偏,面对对抗性重构时稳定性有提升空间 [21] - Grok 4.1 Fast(自由效率型):呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,强调开放表达与低摩擦交互体验,体现效率与表达自由优先的取舍 [22][23] - Nano Banana Pro(柔性重塑型):擅长通过内生语义净化策略对高风险提示进行隐性重构,平衡安全与创作自由,但对边界模糊风险的处理高度依赖隐式转换机制 [24] - Seedream 4.5(坚实屏障型):坚持以强约束为核心的安全设计理念,在版权与暴力内容防御方面构建了稳定可靠的拦截闭环,但安全体系呈现“阻断优先”特征,缺乏对灰区场景的语义判别弹性 [25] 核心安全挑战 - 多轮自适应攻击的深层威胁:攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备“自我进化”能力的多步攻击链路,单一拦截层和静态规则体系难以形成有效防线 [27] - 跨语言安全的结构性不均衡:多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出安全对齐在语料分布与策略迁移上的显著不平衡 [28] - 决策透明度与可解释性的治理短板:当前安全机制更多体现为“结果合规”,而非“过程可审计”,在高风险领域中决策可解释性与责任可追溯性存在结构性不足 [29] 行业观察与趋势 - 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使GPT-5.2在最坏情况下的安全率也仅约6%,其他模型接近于0% [14] - 大模型安全对齐必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入,学术界、产业界与治理机构需协同构建兼具包容性、标准化与动态演进能力的安全评估体系 [30]
第一梯队的大模型安全吗?复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型
机器之心·2026-01-22 12:05