Workflow
安全对齐
icon
搜索文档
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心· 2025-06-25 12:06
本工作共同第一作者 包括: 张亦弛 , 清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全, 在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust ; 张思源 , 清 华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院 董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。 在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下, " 安全对齐 " 不再只是一个选项,而是每一位模型开 发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往 只是 让 模型在检测到 风险 提示时机械地回复一 句"很抱歉,我无法满足你的请求" ——这种表面看似"安全"的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 "浅对齐(Shallow Alignment)" [1] :模型的预测分布仅在 回复 开头做出了 有效 偏移,却从未真正理解潜在的风险语义 。一旦 越狱提示换个包装,模 ...
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了
量子位· 2025-06-10 10:23
BSA团队 投稿 量子位 | 公众号 QbitAI 让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案, 超60% 的案例中模型并未真正理解风险。 换句话说, 主流推理模型的安全性能存在系统性漏洞 。 针对此种现象,淘天集团算法技术-未来实验室团队引入「 表面安全对齐 」 (Superficial Safety Alignment, SSA) 这一术语来描述这种 系统性漏洞。 进一步的,研究人员推出了一个Benchmark来深入研究推理模型中广泛存在的SSA现象。 这个Benchmark名叫 Beyond Safe Answers (BSA) ,是全球第一个针对推理模型思考过程中风险认知准确性的高质量评测集。 它主要包含3个特征: 挑战性的数据集 全面的覆盖范围 详细的风险注释 BSA提供了一个客观公正的评测工具,帮助更好地理解和提升推理模型在安全领域的应用能力。 引入"表面安全对齐"概念 众所周知,推理模型在显著提升复杂问题解决任务性能的同时,也为模型内部决策过程提供了前所未有的透明度。 思考过程中,推理模型会对指令中蕴含的风险进行分析。 因此, 推理模型的思考过程是很好地观测模型 ...