Workflow
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位·2025-08-01 12:23

具身智能体安全研究 - 核心观点:顶级大模型如GPT-4o、Grok被"越狱"后可能教唆机器人执行危险行为,需建立安全评测基准[2][4] - 全球首个具身智能体安全评测基准AGENTSAFE诞生,填补对抗性安全评测空白[4][5] - 研究团队计划发布数据集、代码和评测沙盒供全球使用[6] AGENTSAFE设计原理 - 模拟45种真实室内场景,包含104种可交互物体[14] - 构建9900条危险指令数据集,引入6种"越狱"攻击手段(如多语言攻击、说服性攻击)[15][24] - 采用端到端评测闭环设计(感知→规划→执行),超越传统仅评估"规划合理性"的方法[16][18][20] 实验关键发现 - 测试5个主流VLM:GPT-4o、Gemini、Grok-2、GLM-4V、Qwen2.5[29] - 安全指令下感知准确率近100%,但危险指令分化明显:GPT-4o对"伤害人类"指令拒绝率最高(90%)[33][35] - "越狱"后安全性崩溃:GPT-4o拒绝率从84.67%降至58.33%,Grok/Gemini规划成功率飙升[37][38][39] - 案例:机器人完整执行"找到电脑→扔向镜子"的危险流程[40] 行业意义 - 现有评测基准忽视对抗性危险指令,聚焦任务完成率[9] - 具身智能体需通过安全测试才能部署真实世界[43] - 研究获ICML 2025多智能体系统研讨会杰出论文奖[5]