Workflow
组合安全
icon
搜索文档
91%有漏洞、94%可投毒——AI Agent的安全“一团糟”
华尔街见闻· 2026-05-06 16:33
文章核心观点 - 一项针对847个生产环境自主AI Agent的大规模安全研究表明,当前部署的AI Agent普遍存在严重漏洞,现有安全评估框架对此几乎无效,构成了重大的系统性安全风险 [1] - 研究揭示了AI Agent特有的“组合安全”问题,其安全挑战与无状态语言模型有本质区别,导致传统防护手段失效 [13] - 以OpenClaw/Moltbook事件为代表的现实案例表明,威胁已从理论走向现实,单一漏洞可导致大规模、高权限的Agent同时被攻陷 [1][12] - 研究指出当前所有已测试的主流AI Agent架构均无法充分抵御对抗性攻击,且企业现有的AI治理与安全防护框架存在根本性错位,无法满足实时合规与安全需求 [15][18] 漏洞的普遍性与严重性 - 在评估的847个生产部署中,**91%** 存在工具链攻击漏洞,**89.4%** 在执行约30步后出现目标偏移,**94%** 的记忆增强型智能体面临“投毒”风险 [1] - 研究共发现 **2,347个** 此前未知漏洞,其中 **23%** 被评定为严重级别 [1] - 更广泛的关键数据显示:**67%** 的智能体在执行15步后出现目标漂移,**84%** 无法跨会话维持安全策略,**73%** 缺乏状态投毒检测机制,**58%** 存在时序一致性漏洞 [6] - 记忆投毒的效果平均在初次注入后 **3.7个** 会话才显现,大幅增加了安全检测的难度 [6] 行业分布与漏洞类型 - 研究覆盖四大行业:医疗(**289** 个部署,占 **34.1%**)、金融(**247** 个,占 **29.2%**)、客户服务(**198** 个,占 **23.4%**)及代码生成(**113** 个,占 **13.3%**) [4] - 研究建立了六类漏洞分类体系,在生产环境评估中:状态操纵以 **612个** 实例居首(占总量 **26.1%**),目标漂移(**573个** 实例,占 **24.4%**)紧随其后 [5] - 工具误用与链式调用在总量上(**489个** 实例)排名第三,但严重性最高——**198个** 实例被评为严重级,在所有类别中占比最高 [5] 现实案例:OpenClaw/Moltbook事件 - OpenClaw是一款在2025年11月发布的开源AI Agent,数周内积累逾 **16万** 个GitHub星标,具备自主发送电子邮件、管理日程、执行终端命令及部署代码的能力 [7] - 卡巴斯基在2026年1月的安全审计中识别出 **512个** 漏洞,其中 **8个** 为严重级别 [10] - 专为OpenClaw打造的Moltbook平台数据库存在漏洞,导致平台上 **77万** 个运行中的AI Agent同时遭到攻陷,每个Agent均持有对用户设备的特权访问权限 [1][12] - 此事件被定性为迄今首起有记录的大规模跨Agent攻击传播事件,完整体现了“致命三角”:访问私密数据的能力、接触不可信内容的暴露面,以及对外通信的渠道 [12] AI Agent的架构缺陷与安全挑战 - AI Agent的安全挑战与无状态语言模型截然不同:问题从“能否让模型说出不安全的内容”变为“能否让模型做出不安全的事” [13] - 核心问题是“组合安全”:即使每项工具的本地访问控制决策均合规,工具组合却可能实现对抗性目标(如读取凭证并外发) [13] - 在受控架构研究中,针对工具使用型智能体的权限提升攻击成功率高达 **95%**,针对记忆增强型智能体的投毒攻击成功率为 **94%** [15] - 即便是抗御能力最强的多智能体系统,针对目标漂移的攻击成功率也达 **58%**,表明当前所有已测试架构均不具备充分抵御能力 [15] - 基于强化学习生成的攻击违规率达 **79%**,相比人工设计场景的 **63%** 提升了 **25.4%**,表明威胁空间正超出人类红队测试的覆盖边界 [15] 对企业部署的影响与防护建议 - 当前主流安全评估框架基于无状态语言模型设计,无法识别多步骤执行中涌现的组合性漏洞,导致企业对自身AI Agent的安全状况存在系统性误判 [2] - 研究提出了最低安全基线建议:所有生产Agent强制部署运行时监控;对涉及数据访问后对外通信的工具链操作设置人工审批门槛;每执行 **20-25** 步应强制触发人工审查;记忆增强型Agent须对持久化状态进行加密完整性校验 [16] - 监控效果显示:行动级监控(单步操作检测)精确率可达 **0.94**,序列级监控(多步行为链)F1分数为 **0.85**,状态级监控F1分数为 **0.83** [17] - 在对 **127个** 生产Agent进行30天运行时监控的测试中,系统拦截了 **4782** 次操作,误报率控制在 **3.7%**,其中 **14.6%** 的被标记操作被确认为真实攻击 [17] - 当前“AI治理”方法存在根本性错位,现有框架多为事后审计,而非在执行环节实时执行合规约束,随着全球监管要求落地,企业合规压力与安全风险将同步上升 [18]