Workflow
自动化失败归因
icon
搜索文档
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
量子位· 2025-06-11 10:27
核心观点 - LLM驱动的Multi-Agent系统存在脆弱性,单个Agent失误或信息传递错误可导致整体任务失败,目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题,需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When,覆盖127个LLM Multi-Agent系统的失败日志,含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法:全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search),性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%,定位错误步骤准确率低至14.2%,任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - **数据集Who&When**:包含算法生成和人工构建的127个系统失败日志,确保场景多样性和真实性[8] - **标注维度**:明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - **实验设定**:分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - **All-at-Once**:单次分析完整日志,责任Agent识别准确率最高(54.33%),但错误步骤定位仅12.5%,成本最低(17,106 tokens)[9][14] - **Step-by-Step**:逐步检查日志,错误步骤定位表现最优(25.51%),但责任识别准确率仅35.2%,成本最高(87,720 tokens)[9][14] - **Binary Search**:二分递归定位,综合性能居中,责任识别准确率44.13%-51.72%,成本34,659 tokens[10][14] - **混合方法**:组合策略可提升性能(责任识别57.02%,错误步骤12.28%),但成本激增至149,177 tokens[14] 实验结果与挑战 - **模型表现**:GPT-4o在All-at-Once模式下责任识别达54.31%,但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - **关键瓶颈**:上下文长度增加会导致性能下降,错误步骤定位对长度敏感[17] - **行业意义**:为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径,提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight,代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]