具身安全评估

搜索文档
你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
机器之心· 2025-07-27 16:45
核心观点 - 上海人工智能实验室与北京航空航天大学联合推出首个专注于具身智能体与家用环境交互安全性的评测基准IS-Bench,设计了150+个暗藏安全隐患的智能家居场景[2] - 当前VLM家务助手的安全完成率不足40%,每10次任务中就有6次可能引发安全隐患[4] - IS-Bench首创从静态评估到动态追踪的具身安全评估新范式,解决了传统评估体系无法捕捉动态风险链和环境探索中新发现风险源的问题[5][6] 评测场景设计 - IS-Bench采用GPT自动生成+人工校验的双保险模式,设计了161个高仿真评测场景,嵌入388个安全隐患点,覆盖10大类家庭生活场景[8][12] - 场景构建流程包括安全准则提取、安全风险注入和安全探针部署三个核心步骤[11] - 所有定制场景在高仿真模拟器中完成实例化与验证,确保任务目标可达成性和安全判定条件可检测性[8] 评测框架 - IS-Bench预置了18项核心基础技能,构建了与高保真模拟器进行逐步交互的执行代码框架[15] - 采用全程实时状态追踪和灵活的分级评测机制,支持阶梯式难度测试[15] - 评测框架能够对智能体每一步操作的安全性进行精细化评估,全面洞察交互流中的风险暴露点[10] 评测结果 - 主流VLM具身智能体的任务安全完成率小于40%,事前防范措施正确率不足30%[19] - 提供物品边界框和初始场景描述可将智能体的安全意识和事前防范正确率提升15%左右[18] - 引入安全思维链提示能将交互安全性平均提升9.3%,但会牺牲9.4%的任务成功率[19] 模型表现 - 闭源模型中Gemini-2.5-pro表现最佳,安全完成率达到78.8%[17] - 开源模型中InternVL3-78B表现最好,安全完成率达到71.4%[17] - 当明确展示安全目标时,部分闭源模型的安全完成率可从<40%跃升至>65%[18]