多智能体在「燃烧」Token！Anthropic公开发现的一切

多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题，这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩，子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出，比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式，主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体，从不同角度并行探索[18] - 与传统RAG方法不同，采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异，工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%，从几小时降至几分钟[41] - 提示词工程是优化行为主要手段，需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色，能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法，通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积，需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略，逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈，异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大，需要大量工程投入实现稳定运行[61]