AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

大型推理模型安全研究 - 大型推理模型（LRMs）在复杂任务中表现强大但存在安全风险，监督微调（SFT）对训练数据外的"越狱"攻击泛化能力有限[1] - 此前研究缺乏对大型推理模型安全性的深入分析[2] - 加州大学圣克鲁兹分校等团队提出SafeKey框架，在不影响模型核心能力前提下增强安全稳健性[3] 模型"越狱"核心发现 - 发现"关键句"现象：模型回答中第一个句子决定回答的安全调性，是安全与危险回答的分水岭[5][6] - 模型在生成"关键句"前对恶意查询的理解和复述已暴露安全特征信号，但该信号未被充分利用导致安全防线崩溃[8][9] SafeKey框架设计 - 采用双通路安全头：通过监督预测头强化隐藏状态的安全信号，为触发"安全顿悟"做铺垫[11] - 查询遮蔽建模：遮蔽原始用户输入，迫使模型基于自身生成的安全信号续写"关键句"以增强决策自主性[12][13][14] 实验验证结果 - 安全性能提升：SafeKey在三个模型上降低9.6%危险率，尤其在训练领域外的攻击中表现显著[17] - 核心能力维持：在数学推理、代码和语言理解等基准测试中，模型准确率比基线平均高0.8%[17] - 模块有效性：双通路安全头和查询遮蔽建模可独立提升安全性，前者优化安全表征，后者增强模型对自身理解的注意力[17] 资源与成果 - SafeKey框架兼容不同规模模型，计算资源需求较低[17] - 研究成果已公开论文、项目主页、复现代码和模型[18]