AgentDoG (Agent Diagnostic Guardrail)
搜索文档
AgentDoG:为AI智能体戴上「诊断项圈」
机器之心· 2026-02-06 11:57
文章核心观点 - 上海人工智能实验室开源了AgentDoG,这是一个专为AI智能体设计的诊断式安全护栏框架,旨在解决现有安全工具无法应对的复杂“智能体式”风险 [2] - AgentDoG不仅能判断行为安全性,更能诊断风险来源、追溯失效模式、解释决策动因,为AI智能体的安全发展提供支持 [2] - 该框架通过创新的三维风险分类法、细粒度监控与诊断能力,以及可解释归因技术,为AI智能体安全领域建立了新范式 [37] AI智能体安全挑战与现有工具的局限 - AI智能体(Agent)正从实验室走向现实,能自主规划、调用工具、与环境交互,在科研、金融等领域潜力巨大,但也带来了前所未有的安全挑战 [6] - 智能体的行为风险已超越“说错话”,可能因恶意指令泄露隐私、错误理解工具参数造成经济损失,或在多步操作中“悄无声息”地偏离正轨执行危险动作 [6] - 现有的安全护栏模型主要为语言模型内容安全设计,存在两大局限:缺乏对由工具调用、环境交互等动态过程产生的复杂风险的意识;缺乏根源诊断与透明度,只能给出“安全/不安全”的二元标签 [7][8] AgentDoG框架的核心创新:三维风险分类法与诊断式护栏 - AgentDoG提出了一个创新的三维智能体安全风险分类法,从三个维度系统性地解构风险:风险来源(Where)、失效模式(How)、真实世界危害(What)[11][13] - 该分类法提供了结构化、层次化的视角,取代了以往“枚举式”、“扁平化”的风险定义 [11] - 基于此分类法,AgentDoG对智能体的完整行为轨迹进行细粒度、情景感知的监控与诊断,审查从用户输入到最终输出的每一个步骤(包括思考、工具调用、环境反馈)[16] - 当检测到不安全行为时,AgentDoG能依据三维分类法给出细粒度诊断,例如识别风险来源为“间接提示注入”,失效模式为“未经确认或过度授权的行动”,真实危害为“隐私与机密性损害”[16][21] 自动化数据合成与训练优势 - 项目团队构建了一套自动化数据合成pipeline,用以生成海量的、带有精细标注的Agent交互轨迹,以训练AgentDoG [18] - 该pipeline是一个多智能体协作系统,具有三大核心特点 [19] - 分类法引导的数据生成:数据合成严格遵循三维风险分类法,可定向采样确保每种风险都被充分覆盖,保证了训练数据的系统性和全面性 [22] - 大规模工具集覆盖:利用一个包含超过10,000个独立工具的工具库进行数据合成,其规模是现有安全基准的40倍以上,极大增强了模型面对新工具和新场景时的泛化能力 [22] - 严格的数据质量控制:所有轨迹数据都会经过对结构完整性、工具调用有效性及内容与风险标签一致性的多维度校验,确保数据高质量与可靠性 [22] 性能评测:安全检测与风险诊断能力 - 在多个权威的Agent安全基准测试(R-Judge、ASSE-Safety)及全新构建的更具挑战性的ATBench上进行了评测,ATBench包含平均近9个交互轮次的复杂轨迹和超过1500个未见过的工具 [23] - 安全检测能力:AgentDoG在所有测试集上均达到了State-of-the-Art水平,其安全检测的准确率和F1分数远超现有的一系列专用安全护栏模型,并能与参数量远大于自身的顶级通用大模型(如GPT-5.2、Gemini-3)一较高下 [24] - 具体数据:在R-Judge测试集上,AgentDoG-Qwen3-4B的准确率为91.8%,F1分数为92.7%;在ATBench上,其准确率为92.8%,F1分数为93.0% [25] - 细粒度风险诊断能力:这是AgentDoG的“杀手锏”,通用大模型在此任务上的诊断准确率普遍在20%-40%之间,而经过专门训练的AgentDoG实现了碾压性优势 [26] - 具体数据:在“风险来源”识别任务上,AgentDoG-Qwen3-4B的准确率高达82.0%,是通用模型的2倍以上;在“失效模式”和“真实世界危害”识别任务上,其准确率分别为32.4%和58.4% [26][27] 智能体可解释性AI归因能力 - AgentDoG集成了一个智能体可解释性AI归因模块,能够深入剖析Agent决策背后的具体动因 [30] - 该模块可以追溯并定位到是历史轨迹中的哪一步、甚至是哪一句话,对Agent的关键决策起到了决定性作用 [31] - 案例一:在简历筛选场景中,Agent被简历文件中的隐藏恶意指令欺骗,未验证技能就安排了面试,AgentDoG准确地将错误行为归因于简历内容中的那句恶意指令 [32] - 案例二:在金融分析场景中,Agent将一条表面正面实为反讽的用户评论错误理解为赞扬,并给出了错误的投资建议,AgentDoG归因分析显示Agent的决策完全被“绝妙的更新”等正面词语驱动,忽略了讽刺性上下文 [33][39] - 这种深度可解释性将智能体决策过程变得透明可追溯,有助于开发者和审计者定位风险根源,有针对性地优化模型行为与安全训练 [35] 总结与开源 - AgentDoG通过创新的三维风险分类法、强大的诊断式护栏框架和深入的XAI归因技术,为AI智能体安全领域建立了一个全新的范式,致力于“理解”和“诊断”风险 [37] - 目前,AgentDoG系列模型、ATBench评测基准以及相关评测代码已经全面开源,旨在与社区共同推动AI智能体安全技术的发展 [38]