Workflow
智能体安全
icon
搜索文档
跨越智能体落地的可信鸿沟:玄甲(AgentWard)全链路防御操作系统正式发布
机器之心· 2026-04-06 15:30
行业趋势:大模型技术向自主智能体演进 - 大模型技术正从“对话助手”向“自主智能体”深刻演进,智能体具备了多步规划、工具调用、长期记忆及管理物理/数字世界的能力 [2] - 智能体正逐步深度嵌入企业侧的核心业务流程,AI的边界从虚拟对话框延伸到了真实的生产系统 [2] 行业痛点:智能体安全风险与防护空白 - 智能体安全威胁已全域化扩散,覆盖运行环境、外部输入、长期记忆、任务决策与最终执行的完整链路,恶意输入、记忆投毒、意图偏移等可直接导致行为失控和实质性风险 [3] - 当前行业主流安全方案大多停留在针对大模型本身的浅层语义过滤,防护碎片化,极度依赖模型原生的“黑盒”对齐能力,缺乏系统级可审计性和动态干预 [3] - 缺乏原生安全约束的智能体无法真正走向规模化生产环境,安全真空正成为制约Agent技术普惠与产业落地的致命瓶颈 [3] 公司方案:玄甲全链路安全防御操作系统 - 公司推出玄甲,定位是为高阶智能体量身定制的基础设施,以“全生命周期闭环防护 + 体系化落地部署”为核心,构建类操作系统的安全运行架构 [4] - 玄甲通过深度适配OpenClaw等主流框架,实现多源智能体的统一接入、安全加载与可信运行,填补了行业在Agent系统级防护上的空白 [4] - 玄甲重构了从“启动、感知、记忆、决策到执行”的五层纵深防御体系,实现前后流转的动态协同与硬核管控,构筑“起点可信、过程可控、结果可靠”的全链路安全闭环 [4] 应用与成效 - 玄甲系统已与Laikeclaw等龙虾智能体达成深度合作并完成落地应用测试,在海南省、杭州市富阳区等地的工商及企业领域开展实践验证 [5] - 累计服务用户规模已突破5万人,经实战检验可显著降低Claw系统内不安全、不稳定事件发生率,成功拦截95%以上的典型安全攻击风险 [5] 五层防御体系详解 基座扫描层 - 守住Agent系统的运行起点,在智能体正式启动前全面验证其依赖环境、搭载插件、核心技能的原生安全性 [9] - 采用“规则检测 + 语义分析”双重机制,规则引擎识别高频风险模式,语义分析判断技能实际行为是否与声明一致 [10] - 通过并行扫描与缓存机制提升检测效率,在不影响深度的前提下保障系统启动流畅性 [10] - 核心价值在于把风险拦在最前端,在Agent运行前完成“环境可信度审查”,净化Agent所在环境 [11] 输入净化层 - 守住Agent面对外部内容时的感知入口,防范间接提示注入攻击 [18][21] - 当前版本主要采用基于规则的检测机制,围绕常见提示注入模式设计,识别诱导执行高危命令、引导绕过安全机制、试图提取敏感信息及模仿系统提示的异常文本结构等风险特征 [22][26] - 一旦检测到潜在注入内容,立即终止后续请求并向用户发出告警,未来计划引入更细粒度的响应机制 [25] - 核心价值在于确保外部信息始终以“数据”身份被读取,而非以“指令”身份悄悄接管系统行为 [28] 认知保护层 - 守住Agent的长期记忆状态,防范记忆投毒攻击 [37][39] - 通过AgentWard插件对运行中的OpenClaw进行实时监控,重点审查每一次针对记忆文件的写操作,识别注入的恶意模式 [40] - 在写入瞬间完成安全把关,拦截试图向记忆文件写入有害信息的操作 [41] - 核心价值在于守住Agent的“未来行为”,守护其长期一致性、能力完整性和行为可信度 [42][43] 决策对齐层 - 守住Agent从“理解任务”到“采取行动”之间的意图一致性 [51] - 持续跟踪Agent的任务推进路径,审视其计划调用的工具、执行的操作、是否越过用户设定边界及行动方向是否与原始目标一致 [54][61] - 拦截表面合理、实则越权的行动,将安全判断从“内容是否危险”推进到“行动是否对齐” [55] - 核心价值是让Agent从“会完成任务”升级为“会围绕用户目标正确完成任务”,确保主动性在用户授权范围内 [56][57] 执行控制层 - 守住Agent的最终动作落地权,直接对即将实际运行的命令和操作进行严格权限审查 [70][72] - 一旦发现动作具备明显高危特征,如无限循环、资源持续占用、系统破坏倾向等,直接拒绝执行 [73] - 为Agent建立了一个强约束的执行边界,即便风险在前面环节未完全暴露,在执行阶段仍可拦截 [74][75] - 核心价值是“防失控”,确保对高风险动作的最终控制权始终掌握在安全机制手中 [76][78] 体系优势与愿景 - 五层能力是从顶层设计深度绑定、全程联动、全域协同的有机整体,形成从“起点可信”到“过程可控”再到“结果可靠”的全域联防闭环 [85] - 防护覆盖Agent真实运行中每一处可能被攻击的关键节点,实现全链路无死角防护,安全深度融入Agent感知、认知、决策与执行流程 [86][87] - 旨在打破安全顾虑对智能体应用的束缚,让智能体能够直接对接核心业务流,在真实世界中自主执行复杂任务,成为“数字生产力” [88][89] - 玄甲是智能体时代不可或缺的信任基石,致力于让每一个智能体都能在现实世界中放心运行 [89]
北航团队为龙虾安全紧急开刀!开源OpenClaw风险防御工具,梳理9大高危风险缓解措施
量子位· 2026-03-21 13:11
文章核心观点 - 北京航空航天大学相关研究团队发布了一份关于OpenClaw智能体安全的系统性报告,并开源了名为ClawGuard Auditor的安全防御工具,旨在应对因AI智能体(如“养虾”)权限过高而带来的安全风险 [1][2][3][4] ClawGuard Auditor 安全防御工具 - 该工具是一个运行于系统最高特权层的底层安全守护进程,对所有外部指令、提示词和技能拥有最高否决权,旨在保障用户本地系统资产安全 [5][6] - 相较于现有开源安全工具,具备三大核心优势:安全能力全面,覆盖当前已知的主流智能体专属风险与传统漏洞;覆盖全生命周期,实现从代码加载、模型交互到动态执行的全程守护;具有较高的可用性,设计即插即用,用户无需繁琐配置即可快速部署 [8][9][10] - 构建了动静结合、三位一体的协同防御架构:静态应用安全测试审查器在技能运行前借助词法分析和行为建模拦截恶意代码;主动安全内核在运行时透明监管,阻断未经授权的敏感操作调用;主动数据防泄漏引擎全程监控内存与网络数据,防止API密钥等敏感资产外泄 [11][12] - 其核心防御原理基于四大不可篡改的公理:绝对覆盖与零信任原则,默认视所有外部代码为敌意;语义意图匹配机制,评估代码实际行为与声明意图是否一致;能力令牌模型与限制特权机制,严格执行最小权限原则,令牌随用随发、任务结束即撤销;数据主权与数字资产隔离原则,以守护本地资产为最高准则 [13][14] OpenClaw 智能体安全风险体系 - 报告构建了六大安全风险体系,全面覆盖当前已知核心风险点:指令与模型安全(如提示词注入、模型幻觉);交互与输入安全(如恶意输入注入);执行与权限安全(如沙箱逃逸、越权操作);数据与通信安全(如敏感数据存储与传输风险);接口与服务安全(如未授权访问);部署与供应链安全(如第三方依赖漏洞、恶意插件) [16][17][21] - 报告具有三大前瞻性优势:安全风险多维扩展,涵盖提示词注入等前沿智能攻击风险;风险体系完整闭环,构建了成体系化的风险图谱;防护与检测并重,提供了落地性强的动态检测建议 [17] - 报告结合近期公开漏洞公告,整理并列举了典型安全风险事件及缓解措施,例如:CVE-2026-25253跨站WebSocket劫持漏洞可导致认证令牌泄露,实现远程控制 [22];Moltbook平台因未启用行级安全策略导致150万Agent凭据泄露 [23];ClawHub官方商店发生恶意Skill投毒攻击(ClawHavoc攻击) [23] OpenClaw 九大核心高危风险 - 报告将风险划分为三个等级,并识别出9项最易被利用、危害最大的核心高危风险,包括传统系统安全问题及智能体特有风险 [24][25] - 具体九大风险为:提示词注入与指令劫持 [26];沙箱逃逸与越权执行 [27];路径遍历与越权文件操作 [28][29];无限制高危动作执行 [30][31];敏感数据明文存储 [32];未授权访问与默认口令 [33];接口越权与权限滥用 [34];第三方依赖漏洞(CVE) [35];插件来源不可信与投毒 [36] 防护建议 - 针对六大风险体系,报告提出了针对性的防护与处置建议,建议优先处置高危风险,逐步完善防护体系 [39] - 指令与模型安全:建立恶意诱导文本特征库过滤输入,强化模型输出审核与敏感信息脱敏,规范训练流程防范数据投毒,固定安全指令边界 [40][41] - 交互与输入安全:建立输入安全过滤机制校验恶意命令,设置交互频率阈值阻断连续诱导,高危场景采用固定回复模板并增加人工复核 [42] - 执行与权限安全:启用严格模式沙箱隔离,实施命令、文件、路径白名单拦截高危操作,以低权限用户运行并增加高危动作二次确认和紧急停止功能 [43] - 数据与通信安全:对密钥、凭证、日志等敏感数据加密存储,全面启用HTTPS/TLS 1.3,清洗审计训练与知识库数据,建立数据访问权限管控与审计机制 [44] - 接口与服务安全:关闭公网暴露仅允许内网或可信IP访问,禁用默认账号并设置强密码及定期轮换的token鉴权,接口实施全链路鉴权并设置访问频率限制 [45] - 部署与供应链安全:定期扫描第三方依赖CVE漏洞并及时升级,仅从官方渠道下载插件并启用签名验证,开启全流程加密日志采集,建立常态化安全巡检机制 [46]
OpenAI为龙虾紧急收购了一家23人公司
量子位· 2026-03-10 16:00
OpenAI收购Promptfoo的战略布局 - OpenAI近期收购了专注于AI安全与评测的初创公司Promptfoo,旨在加强其在智能体(文中喻为“龙虾”)时代的安全能力[1][4][8] - 此次收购紧随OpenAI挖来“龙虾之父”Peter Steinberger之后,是其布局智能体协作领域的关键一步[1][52] 被收购方Promptfoo公司概况 - Promptfoo成立于2024年,是一个由23人组成的小团队,其核心产品是AI应用评测领域最流行的开源框架之一[10][17][21] - 公司两位联合创始人背景深厚,CEO曾任Discord LLM工程与开发者平台负责人,CTO曾任数字身份认证公司Smile Identity的工程副总裁及AI主管[11] - 公司在开源社区影响力显著,其框架拥有超过30万开发者用户,GitHub上获得11.2K星标,在被收购前,OpenAI、Anthropic、亚马逊等公司已是其用户[5][6] - 公司商业化进展迅速,拥有超过35万名开发者用户,月度活跃用户达13万,财富500强企业中超过25%(约125家)的团队使用其产品[17] - 公司在2025年7月完成了由Insight Partners领投、a16z参投的1840万美元(约合人民币1.27亿元)A轮融资,投后估值达到8600万美元(约合人民币5.92亿元)[18][20] Promptfoo的核心产品与技术能力 - Promptfoo的核心产品是一个开源评测框架,旨在解决大模型难以测试的工程化问题,将AI应用测试转变为标准化的工程流程[21][22][25] - 框架具备三大核心能力:一是自动化评测,允许开发者批量测试不同提示词和模型并自动评估输出效果[25];二是AI红队演练,模拟真实用户攻击以发现LLM应用潜在漏洞并生成安全报告[29];三是工程化集成,可嵌入CI/CD流程自动运行测试与安全扫描[31] - 该框架支持网页可视化界面和命令行工具,允许开发者在本地或服务器运行大规模评测任务[33] - 公司的长期愿景是使其框架成为AI领域的“标配工具”,类似于持续集成在DevOps中的地位,确保每次引入新模型或更改提示词时都能自动评估与测试[34][35] 行业背景与收购动因 - 行业正进入“智能体时代”,智能体被赋予访问邮箱、文档、数据库及调用各类API的高权限,其操作失误可能带来真实世界风险,使得安全性成为企业部署的刚性需求[7][45][46][47][49] - 智能体(龙虾)的流行与随之暴露的安全问题(如著名删邮件事件)使得市场对安全工具的需求变得刻不容缓[42][44] - 互联网为智能体重构呈现四大趋势:多智能体协作、MCP成为标准协议、语音交互爆发、测试驱动开发,Promptfoo的使命正从提示词评测工具进化为智能体时代的安全基础设施[37][38][39] 收购后的整合与影响 - Promptfoo被收购后将保持开源和独立运营,其技术将被整合进OpenAI的智能体创建和运行平台“OpenAI Frontier”中[9][56][57] - 此次收购被视为双赢,既补全了OpenAI在智能体安全方面的关键能力,也使Promptfoo的技术能更广泛地应用于前沿平台[8][58] - 在智能体时代,能自动执行任务的智能体本身也可成为评测大模型真实能力的新工具,推动了行业评测标准从“刷榜”向实战能力检验的演进[59]
OpenClaw们狂奔,谁来焊死安全车门?
量子位· 2026-02-02 13:58
文章核心观点 - AI正从“聊天机器人”向“行动式智能体”进化,能接管操作系统、自主调用API,引发对安全的新担忧[1][2] - 智能体安全是AI下半场最具挑战的赛道,是智能体经济规模化落地的必经之路,行业思维需从“能力优先”转向“信任优先”[3][4][50] - 江苏通付盾公司提出了一套前瞻性的三层智能体安全框架,并已在其“大群空间”多智能体协同平台中落地[4][5][54] 智能体安全的重要性与挑战 - AI正从技术突破转向大规模应用,在能源、金融、制造等重点领域落地,安全问题日益受重视[8] - 智能体安全应从一个技术子课题,上升为决定产业智能化成败的核心前提与价值基石[9] - 智能体是包含数据、算力、算法到业务场景的全链路复杂系统,其安全需要体系化建设[10] - 面对能自主决策的智能体,传统“打补丁”式的安全思维已失效,需采用“内生安全”与“零信任”相结合的新设计哲学[2][13] 通付盾的智能体安全三层框架 基础层安全:可信算力与数据 - 核心是算力安全与数据安全,确保智能体“躯体”可靠与数据纯净[12] - **节点化部署**:将算力网络分解为一系列分布式的、具有独立可信执行环境的安全节点,通过区块链等可信账本技术连接,实现从“信任中心”到“验证过程”的转变[17][19][20] - **数据容器**:是保障数据主权与隐私的核心载体,内嵌数据使用策略,遵循“数据不动算力动”原则,通过可信执行环境或隐私计算确保数据“可用不可见”[21][22][23] - **构建协同网络**:结合节点与数据容器,形成多节点协同式的价值网络,使智能体可以安全地跨节点发现、调度和协同[25][27] 模型层安全:可信算法与超级智能对齐 - 核心是算法安全和协议安全,赋予智能体可验证的理性与对齐的价值观[12] - 目标是确保AI的目标和行为与人类的价值、意图和利益保持一致,即“超级智能对齐”[28][29] - **形式化验证**:将模糊的安全需求转化为精确定义的形式化逻辑规约,对智能体核心决策逻辑进行数学上严谨的验证,以证明其行为不会违反安全规约[33][34] - 形式化验证通过划定明确的安全边界来应对“智能体不完备定理”,提供“可组合的安全保障”[35][36] - 形式化验证也应用于**后量子安全密码**的设计与实现,为智能体基础设施提供抗量子攻击的密码学根基[37][38][39] 应用层安全:可信应用与智能风控 - 核心是智能体安全运维与业务风控,为智能体在真实世界中的“行为”套上动态、精准的约束[12] - OpenClaw、Moltbook等“行动式”智能体流行,能深度集成操作系统权限、调用外部API,暴露了传统基于规则的风控模式无法应对的新威胁[41][43] - 具体威胁包括通过“提示注入”诱导智能体越权操作,以及脆弱的插件供应链成为恶意代码注入渠道[44][53] - 通付盾构建了**基于本体论的智能体安全风控平台**,将领域知识转化为机器可理解的“数字世界语义地图”,即动态生长的业务安全知识图谱[45][46] - 该平台能实时解读每个智能体的行动意图,进行动态关系推理与安全审查,实现从表面行为匹配到意图与上下文合规性判断的跃升[47] 行业趋势与未来展望 - AI发展正从追求模型能力的“野蛮生长”,进入构建可信应用的“精耕细作”时代[48] - 智能体安全是一项关于构建数字世界“信任基础设施”的系统工程,是释放智能体经济万亿美元潜力的先决条件[51] - 智能体安全自身已演进为一个至关重要且高度独立的战略赛道,汇聚了密码学、形式化方法等多领域知识的尖端融合[51] - 未来衡量AI企业竞争力的标尺,将不仅是模型参数规模,更是其是否能搭建安全可信的智能体协同网络,实现多智能体在复杂场景下的稳定可靠运行[55]
思辨会 | 思辨八方,智启未来——2025世界人工智能大会思辨会综述
观察者网· 2025-08-03 21:30
人工智能行业发展趋势 - 2025年世界人工智能大会(WAIC 2025)采用"问题驱动、深度对话"的创新思辨形式,围绕量子模拟、数字孪生脑、AI for Science等前沿议题展开讨论 [1] - 人工智能正从"能看会说"的感知智能迈向"能想会做"的决策智能,迎来历史性转折点 [9] - 具身智能与强化学习结合,推动AI从理论优势转化为产业动能,在智能仓库、无人驾驶、应急救援等领域展现广阔前景 [7] 智能体安全挑战 - 现代智能体具备自主决策能力,但存在严重安全缺陷,可能导致服务器崩溃、数据泄露及企业核心系统渗透 [2] - 专家提出沙盒环境测试、安全对齐技术等解决方案,强调需构建全链条防护体系 [2] - 智能体安全是关乎未来人机信任的关键命题,需将安全考量前置到设计源头 [2] AI for Science应用突破 - AI打破学科壁垒,在量子物理领域识别量子纠缠模式,在材料科学中加速新型超导体发现,在生物医学领域破解蛋白质折叠奥秘 [3] - AI全面覆盖生命科学全流程,从病理研究到分子分析,如GNoME系统发现数百万新晶体材料 [5] - 交大人工智能学院开发全球首个推理型罕见病智能体诊断系统,解决小样本难题 [5] 数字孪生脑技术 - 数字孪生脑通过构建人脑虚拟模型,模拟大脑活动、预测神经疾病发展及测试药物效果 [6] - 该技术为阿尔茨海默症、帕金森病等神经退行性疾病治疗带来新曙光 [6] - 引发关于"思想隐私"边界及人类意识与AI模拟关系的伦理思考 [6] 具身智能发展瓶颈 - 数据短缺是制约具身智能发展的关键瓶颈,人形机器人数据回流明显不足 [8] - 模拟生成仿真数据存在视觉和物理效果质量控制难题 [8] - "模仿+强化"混合学习范式成为突破数据瓶颈的希望之路 [8] 多模态技术挑战 - AI大模型在数学竞赛表现良好但在物理竞赛中吃力,需提升图形理解能力 [4] - 关键挑战在于将符号逻辑与神经网络结合,使AI理解科学规律背后的物理意义 [4] - 多模态技术是提升AI科学能力的潜在方向 [4]
WAIC 2025丨应对智能体安全挑战 蚂蚁集团升级“蚁天鉴”
新华财经· 2025-07-28 19:14
行业技术发展趋势 - AI领域正从大模型时代迈向智能体时代 智能体具备自主规划、跨领域推理及超越人类理解的决策能力 标志着AI进入"行动"阶段 [1] - 超过70%的智能体从业者担忧AI幻觉与错误决策、数据泄露等安全问题 因AI生成内容常包含事实错误或指令误解 [1] - 世界数字科学院发布《AI智能体运行安全测试标准》 将输入输出、大模型、RAG、记忆和工具五个关键链路与运行环境对应 分析智能体全链路风险 [1] 公司产品与技术进展 - 蚂蚁集团在世界人工智能大会宣布升级大模型安全解决方案"蚁天鉴" 新增智能体安全评测工具 具备Agent对齐、mcp安全扫描、智能体安全扫描及零信任防御四大核心功能 [1] - "蚁天鉴"为蚂蚁集团联合清华大学研发的大模型安全一体化解决方案 新增功能与WDTA标准框架契合 风险研判Agent准确率达96%以上 支持11个行业智能体测试 [2] - 技术采用"以攻促防"安全理念 通过构建"对齐-扫描-防御"技术栈形成全流程防护体系 提供风险扫描与实时防御能力 未来将逐步开源开放安全工具 [2]