关于 Multi-Agent 到底该不该做，Claude 和 Devin 吵起来了

多智能体系统核心观点 - Anthropic与Cognition两篇文章共同揭示了多智能体系统的适用场景与局限性：Anthropic强调多智能体在低依赖、可并行任务中的高效性（如研究任务），而Cognition指出高依赖、紧耦合任务（如AI Coding）目前不适合多智能体架构 [2][12][39] - 多智能体系统性能提升显著但成本高昂：Anthropic的测试显示多智能体系统比单智能体性能提升90.2%，但token消耗达普通聊天的15倍 [9][10] - 当前技术限制下，多智能体系统需满足三大条件：任务价值足够高、需要大量并行处理、信息量超出单个上下文窗口 [12][16] 多智能体架构设计 - 编排器-工作器模式为核心架构：主智能体负责协调，子智能体并行执行任务，通过动态搜索替代传统RAG的静态检索 [13][16][19] - 并行工具调用实现效率飞跃：引入两层并行化（主智能体同时启动3-5个子智能体，子智能体并行使用3+工具）使复杂查询研究时间缩短90% [25][26] - 上下文管理策略关键：采用外部内存存储关键信息、智能压缩机制防止溢出，子智能体输出直接写入文件系统减少token开销 [35][36] 多智能体适用场景 - 最佳应用领域：开放式研究任务（如跨领域软件开发、商业策略制定、学术研究），可覆盖信息量超出单智能体能力的广度型查询 [9][38] - 当前不适用场景：需要共享同一上下文的高依赖任务（如实时编码协调），LLM智能体尚无法有效处理任务分配与实时协调 [12][57] - 典型成功案例：Anthropic多智能体系统完成标普500公司董事会成员搜索等复杂研究任务，而单智能体系统失败 [9] 多智能体工程挑战 - 提示工程决定系统行为：需开发智能体心理模型，明确任务分配规则（简单查询1个智能体3-10次调用，复杂研究10+子智能体） [21][23] - 调试复杂度指数级增长：微小提示改动引发连锁反应，需建立模拟环境观察失败模式（如子智能体重复搜索、工具选择错误） [21][31] - 部署策略特殊：采用彩虹部署逐步迁移流量，避免中断运行中的智能体状态 [33] 多智能体评估方法 - 传统评估方法失效：需采用最终状态评估而非路径验证，LLM评判者规模化评估事实准确性、引用质量等维度 [27][28][29] - 人工测试不可替代：发现自动化评估遗漏的边缘情况（如SEO内容偏好），修正信息源选择偏差 [29] - 涌现行为需监控：智能体交互产生非预期行为，需追踪决策模式与交互结构 [30] AI Coding领域实践 - Cognition实践表明：2025年技术条件下，编程任务采用多智能体会导致系统脆弱，因决策分散且上下文共享不足 [57] - 单线程线性agent更可靠：Claude Code子agent仅回答明确定义问题，避免并行工作导致的矛盾输出 [55] - 上下文工程是核心：需压缩历史对话关键细节，微调专用模型管理长上下文 [53]