自动化失败归因 - 财报，业绩电话会，研报，新闻

自动化失败归因

搜索文档

智能体自己出现问题自己找！首次提出“自动化失败归因”课题 | ICML2025 Spotlight

量子位· 2025-06-11 10:27

核心观点 - LLM驱动的Multi-Agent系统存在脆弱性，单个Agent失误或信息传递错误可导致整体任务失败，目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题，需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When，覆盖127个LLM Multi-Agent系统的失败日志，含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法：全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search)，性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%，定位错误步骤准确率低至14.2%，任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - **数据集Who&When**：包含算法生成和人工构建的127个系统失败日志，确保场景多样性和真实性[8] - **标注维度**：明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - **实验设定**：分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - **All-at-Once**：单次分析完整日志，责任Agent识别准确率最高(54.33%)，但错误步骤定位仅12.5%，成本最低(17,106 tokens)[9][14] - **Step-by-Step**：逐步检查日志，错误步骤定位表现最优(25.51%)，但责任识别准确率仅35.2%，成本最高(87,720 tokens)[9][14] - **Binary Search**：二分递归定位，综合性能居中，责任识别准确率44.13%-51.72%，成本34,659 tokens[10][14] - **混合方法**：组合策略可提升性能(责任识别57.02%，错误步骤12.28%)，但成本激增至149,177 tokens[14] 实验结果与挑战 - **模型表现**：GPT-4o在All-at-Once模式下责任识别达54.31%，但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - **关键瓶颈**：上下文长度增加会导致性能下降，错误步骤定位对长度敏感[17] - **行业意义**：为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径，提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight，代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]

自动化失败归因

Artificial Intelligence

LLM Multi - Agent系统

自动化失败归因

Artificial Intelligence

LLM Multi - Agent系统

ICML 2025 Spotlight | 谁导致了多智能体系统的失败？首个「自动化失败归因」研究出炉

机器之心· 2025-05-30 11:28

多智能体系统自动化失败归因研究核心观点 - LLM驱动的多智能体系统存在脆弱性，Agent间误解、信息传递错误或决策不当易导致整体任务失败，但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务，目标是自动识别导致失败的Agent（Who）和错误步骤（When）[1][5] - 研究构建首个基准数据集Who&When，包含127个多智能体系统失败日志，涵盖GAIA等公开基准，并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法：All-at-Once（整体判断，成本低但易忽略细节）、Step-by-Step（逐轮分析，精度高但成本高）、Binary Search（二分法平衡成本与精度）[13] - 混合策略（如All-at-Once+Step-by-Step）可提升准确率，但计算成本显著增加（达149,177 Token）[10][11] 实验结果 - 当前方法效果有限：最佳模型识别出错Agent准确率仅53.5%，定位错误步骤准确率仅14.2%[13] - 方法互补性明显：All-at-Once擅长识别责任Agent（57.02%准确率），Step-by-Step更适合定位错误步骤（7.9%准确率）[11][13] - 现有SOTA模型（如OpenAI o1、DeepSeek R1）表现不理想，远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白，首次将失败原因量化，为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床，推动更可靠的多Agent系统开发[6][16]