LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉
机器之心·2025-10-12 12:05
JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为 CISPA 教授张阳 。 引言 回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「 答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「 我不会」,却在 后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解 决问题的关键要点时,其得分才较高。老师给分的依据, 在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式 。 可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判 断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。 为了克服这一难题,来自 CISPA 亥姆霍兹信息安全中心、西安交通大学和 Flexera 的 研究人员提出了一个 抓住关键点的通用的越狱评估框架 —— J ...