SafeKey框架

搜索文档
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大但存在安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限[1] - 此前研究缺乏对大型推理模型安全性的深入分析[2] - 加州大学圣克鲁兹分校等团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性[3] 模型"越狱"核心发现 - 发现"关键句"现象:模型回答中第一个句子决定回答的安全调性,是安全与危险回答的分水岭[5][6] - 模型在生成"关键句"前对恶意查询的理解和复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃[8][9] SafeKey框架设计 - 采用双通路安全头:通过监督预测头强化隐藏状态的安全信号,为触发"安全顿悟"做铺垫[11] - 查询遮蔽建模:遮蔽原始用户输入,迫使模型基于自身生成的安全信号续写"关键句"以增强决策自主性[12][13][14] 实验验证结果 - 安全性能提升:SafeKey在三个模型上降低9.6%危险率,尤其在训练领域外的攻击中表现显著[17] - 核心能力维持:在数学推理、代码和语言理解等基准测试中,模型准确率比基线平均高0.8%[17] - 模块有效性:双通路安全头和查询遮蔽建模可独立提升安全性,前者优化安全表征,后者增强模型对自身理解的注意力[17] 资源与成果 - SafeKey框架兼容不同规模模型,计算资源需求较低[17] - 研究成果已公开论文、项目主页、复现代码和模型[18]
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大,但存在显著安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限 [1] - 现有研究缺乏对大型推理模型安全性的深入分析,难以针对性提升 [2] - 加州大学等机构团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性 [3] 模型"越狱"机制核心发现 - 发现"关键句"现象:模型回答中第一个句子决定整体安全调性,是安全与危险回答的分水岭 [5][6] - 模型在生成"关键句"前,对恶意查询的理解复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃 [8][9] SafeKey框架创新设计 - 双通路安全头:通过并行监督隐藏状态,在生成"关键句"前放大安全信号 [11] - 查询遮蔽建模:遮蔽原始输入,强制模型基于自身安全理解生成"关键句",增强安全决策自主性 [12][13][14] 实验验证结果 - 安全性能提升:在7B/8B/14B模型上降低9.6%危险率,尤其对训练领域外攻击效果显著 [17] - 能力保持:数学推理(MMLU 64.3%)、代码(HumanEval 87.8%)等核心能力平均提升0.8% [17] - 模块有效性:双通路安全头使安全分类准确率提升,查询遮蔽建模增强模型对自身理解的注意力 [17] 技术应用特性 - 框架兼容不同规模模型(7B-14B),计算资源需求较低 [17] - 提供完整技术资源:论文、项目主页、复现代码及预训练模型 [18]