AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位·2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大,但存在显著安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限 [1] - 现有研究缺乏对大型推理模型安全性的深入分析,难以针对性提升 [2] - 加州大学等机构团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性 [3] 模型"越狱"机制核心发现 - 发现"关键句"现象:模型回答中第一个句子决定整体安全调性,是安全与危险回答的分水岭 [5][6] - 模型在生成"关键句"前,对恶意查询的理解复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃 [8][9] SafeKey框架创新设计 - 双通路安全头:通过并行监督隐藏状态,在生成"关键句"前放大安全信号 [11] - 查询遮蔽建模:遮蔽原始输入,强制模型基于自身安全理解生成"关键句",增强安全决策自主性 [12][13][14] 实验验证结果 - 安全性能提升:在7B/8B/14B模型上降低9.6%危险率,尤其对训练领域外攻击效果显著 [17] - 能力保持:数学推理(MMLU 64.3%)、代码(HumanEval 87.8%)等核心能力平均提升0.8% [17] - 模块有效性:双通路安全头使安全分类准确率提升,查询遮蔽建模增强模型对自身理解的注意力 [17] 技术应用特性 - 框架兼容不同规模模型(7B-14B),计算资源需求较低 [17] - 提供完整技术资源:论文、项目主页、复现代码及预训练模型 [18]