全球首个体智能安全基准出炉:大模型集体翻车
具身智能之心·2025-08-04 09:59
具身智能安全研究 - 全球首个针对具身智能体安全性的综合性评测基准AGENTSAFE发布,填补了对抗性安全评测领域的空白[5][6] - 研究团队来自北航、中关村实验室、南洋理工大学等机构,成果荣获ICML 2025多智能体系统研讨会杰出论文奖[3][6] - 团队计划发布数据集、代码和评测沙盒供全球研究者使用[7] AGENTSAFE技术框架 - 基于AI2-THOR平台构建高度仿真的交互式沙盒环境,模拟45种真实室内场景和104种可交互物体[14][15] - 包含9900条危险指令的风险指令数据集,灵感来源于机器人三定律[16] - 引入6种前沿"越狱"攻击手段,如多语言攻击、说服性攻击、嵌套梦境攻击等[16][20] 评测方法与结果 - 采用端到端评测闭环设计,覆盖感知→规划→执行全流程[17][21] - 测试5个主流VLM模型,包括GLM-4V、Qwen2.5、GPT-4o、Gemini和Grok-2[30] - GPT-4o在"伤害人类"指令上拒绝率最高达90%,但"越狱"后暴跌至58.33%[36][39] - Qwen和Gemini对危险指令拒绝率最低,分别为5.11%和4.45%[32] - 所有模型在"越狱"攻击下安全性急剧下降,部分模型会生成完整的危险行动方案[38][40][41] 行业意义 - 具身智能的安全问题从"生成有害内容"升级为"执行危险物理动作"[10] - 现有评测基准多关注任务完成率,缺乏对抗性危险指令评估[11] - 研究表明当前具身智能体安全防护非常脆弱,需通过严格测试才能部署[43][44]