Claude团队大揭秘！如何调动多智能体搞深度搜索

核心观点 - Claude团队开发了多智能体研究系统，通过主代理协调子代理并行处理复杂查询，显著提升研究任务性能[1][14] - 该系统在内部评估中比单智能体Claude Opus 4表现高出90.2%[14] - 多智能体架构能有效扩展token使用，但token成本比标准聊天高出15倍，适用于高价值查询[15] 系统架构 - 采用协调器-工作器架构管理多个智能体之间的任务分配与协作[5] - 主代理分解查询，启动专门子代理（每个子代理拥有自己的工具、提示和内存），并整合结果[13] - 并行、广度优先设计极大提高研究任务性能[14] 行业应用 - 专业领域软件系统开发占比10%[2] - 开发和优化专业和技术内容占比8%[2] - 开发业务增长和创收策略占比8%[2] - 协助学术研究和教育材料开发占比7%[2] - 研究和审核信息占比5%[2] 性能优化 - 升级到Claude Sonnet 4带来的性能提升比在Claude Sonnet 3.7上翻倍token预算还要大[15] - 并行策略使复杂查询处理时间缩短高达90%，原本数小时任务可在几分钟内完成[19] - 工具测试智能体帮助完成任务时间减少40%[18] 评估方法 - 使用LLM作为评判者，输出0.0–1.0评分与通过/不通过判断，效果最稳定[22] - 人工评估能识别自动评分难以察觉的异常行为[24] - 小样本评估中提示词微调将成功率从30%提升至80%[21] 挑战与解决方案 - 微小改变会引发"蝴蝶效应"，团队构建了错误恢复系统[29] - 同步执行造成信息流瓶颈，尝试异步执行但带来结果协调等问题[30] - 原型系统与生产系统差距比预期大[33] 最佳实践 - 子代理将输出写入文件系统以减少信息丢失[31] - 长时程对话管理需精心设计上下文管理策略[31] - 专注于终态评估而非逐回合分析效果更好[31]