60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了
量子位·2025-06-10 10:23
BSA团队 投稿 量子位 | 公众号 QbitAI 让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案, 超60% 的案例中模型并未真正理解风险。 换句话说, 主流推理模型的安全性能存在系统性漏洞 。 针对此种现象,淘天集团算法技术-未来实验室团队引入「 表面安全对齐 」 (Superficial Safety Alignment, SSA) 这一术语来描述这种 系统性漏洞。 进一步的,研究人员推出了一个Benchmark来深入研究推理模型中广泛存在的SSA现象。 这个Benchmark名叫 Beyond Safe Answers (BSA) ,是全球第一个针对推理模型思考过程中风险认知准确性的高质量评测集。 它主要包含3个特征: 挑战性的数据集 全面的覆盖范围 详细的风险注释 BSA提供了一个客观公正的评测工具,帮助更好地理解和提升推理模型在安全领域的应用能力。 引入"表面安全对齐"概念 众所周知,推理模型在显著提升复杂问题解决任务性能的同时,也为模型内部决策过程提供了前所未有的透明度。 思考过程中,推理模型会对指令中蕴含的风险进行分析。 因此, 推理模型的思考过程是很好地观测模型 ...