AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位·2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大但存在安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限[1] - 此前研究缺乏对大型推理模型安全性的深入分析[2] - 加州大学圣克鲁兹分校等团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性[3] 模型"越狱"核心发现 - 发现"关键句"现象:模型回答中第一个句子决定回答的安全调性,是安全与危险回答的分水岭[5][6] - 模型在生成"关键句"前对恶意查询的理解和复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃[8][9] SafeKey框架设计 - 采用双通路安全头:通过监督预测头强化隐藏状态的安全信号,为触发"安全顿悟"做铺垫[11] - 查询遮蔽建模:遮蔽原始用户输入,迫使模型基于自身生成的安全信号续写"关键句"以增强决策自主性[12][13][14] 实验验证结果 - 安全性能提升:SafeKey在三个模型上降低9.6%危险率,尤其在训练领域外的攻击中表现显著[17] - 核心能力维持:在数学推理、代码和语言理解等基准测试中,模型准确率比基线平均高0.8%[17] - 模块有效性:双通路安全头和查询遮蔽建模可独立提升安全性,前者优化安全表征,后者增强模型对自身理解的注意力[17] 资源与成果 - SafeKey框架兼容不同规模模型,计算资源需求较低[17] - 研究成果已公开论文、项目主页、复现代码和模型[18]