Anthropic 详述如何构建多智能体研究系统：最适合 3 类场景

多智能体系统核心观点 - 多智能体系统最适合三类场景：高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩，子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出，Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题，token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍，需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性，AI Agent能根据进展灵活调整方向，传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察，子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后，多智能体系统成为扩展能力的必由之路，智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率，Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式，首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同，采用多步骤动态搜索：持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory，创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究，必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告，确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款，编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统，利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因，监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本，避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体，子智能体并行使用3个或以上工具，将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权，明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量，将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要，为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略：鼓励智能体先从简短宽泛查询开始，评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径，多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性，而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分（事实准确性、引用准确性等），与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况，如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括：跨专业领域开发软件系统（10%）、专业技术内容开发优化（8%）、业务增长与营收战略制定（8%）等 [21] - 用户反馈帮助找到未曾考虑的商业机会，解决复杂医疗保健方案，节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]