Workflow
AgentAuditor
icon
搜索文档
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 12:02
LLM智能体安全性评估的突破性进展 核心观点 - LLM智能体正从文本生成器进化为具备自主决策和执行能力的"行动派",但自主权带来安全性评估难题[1] - 现有评估方法存在"看不懂、看不全、看不准"三大困境,难以应对复杂交互场景[1] - AgentAuditor框架通过结构化记忆和RAG技术,使LLM评估器达到人类专家水平[2][4] 技术框架 - **特征记忆构建**:将杂乱交互记录转化为含场景、风险类型等语义信息的结构化数据库[4] - **推理记忆构建**:筛选代表性案例并生成思维链(CoT),形成类似人类专家的判案经验[5] - **记忆增强推理**:通过多阶段检索机制动态调用相关CoT辅助决策,提升评估精度[6] 基准数据集 - ASSEBench包含2293条标注数据,覆盖15种风险类型、528个环境和29个应用场景[9] - 采用人机协同标注流程,引入"严格"和"宽松"双标准评估模糊风险[9] - 同时关注Safety(避免错误)和Security(防御攻击)两大维度[9] 实验效果 - Gemini-2-Flash-Thinking在ASSEBench-Safety上F1分数提升48.2%,R-Judge准确率达96.1%[12] - 在ASSEBench-Strict/Lenient子集上能自适应调整策略,缩小不同标准下的性能差距[12] - 多模型对比显示,Claude-3.5在R-Judge上准确率提升34.8%,GPT-4.1提升20.7%[13] 行业意义 - 填补LLM智能体安全评估领域空白,为人机协同标注建立新范式[17] - 通过自适应样本选择、结构化记忆等技术显著增强LLM评估能力[17] - 为构建可信赖的智能体防御系统提供研究基础和工具支持[17]