Workflow
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心·2025-05-30 11:28

多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]