Workflow
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位·2025-08-01 12:23

AGENTSAFE团队 投稿 量子位 | 公众号 QbitAI 想象一下,你家的智能机器人管家,不仅能听懂"把苹果放进冰箱",也能执行"用打火机点燃房间"这样的指令。 这听起来是不是有点吓人? 来自北航、中关村实验室、南洋理工大学等机构的一项新研究结果令人震惊: 即便是 GPT-4o、Grok 这样的顶级大模型,一旦被"越狱"(Jailbreak),也会"教唆"机器人做出危险行为。 为此,他们提出了 全球首个针对具身智能体安全性的综合性评测基准 —— AGENTSAFE ,以填补具身智能体在对抗性安全评测领域的空 白。 这项开创性研究, 荣获ICML 2025多智能体系统(MAS)研讨会杰出论文奖 (Outstanding Paper Award)。 团队还计划发布数据集、代码和评测沙盒,供全球研究者使用。 到底什么情况,让我们来看一下。 AGENTSAFE:一个能"越狱"机器人的沙盒 为什么需要AGENTSAFE? 因为"越狱"攻击,正在从"说"蔓延到"做"。 过去,AI的安全问题大多集中在"生成有害内容"上,比如让ChatGPT写一封诈骗邮件。这类攻击被称为"越狱攻击"(Jailbreak Attacks ...