Multi-Agent

搜索文档
关于 Multi-Agent 到底该不该做,Claude 和 Devin 吵起来了
Founder Park· 2025-06-16 22:16
多智能体系统核心观点 - Anthropic与Cognition两篇文章共同揭示了多智能体系统的适用场景与局限性:Anthropic强调多智能体在低依赖、可并行任务中的高效性(如研究任务),而Cognition指出高依赖、紧耦合任务(如AI Coding)目前不适合多智能体架构 [2][12][39] - 多智能体系统性能提升显著但成本高昂:Anthropic的测试显示多智能体系统比单智能体性能提升90.2%,但token消耗达普通聊天的15倍 [9][10] - 当前技术限制下,多智能体系统需满足三大条件:任务价值足够高、需要大量并行处理、信息量超出单个上下文窗口 [12][16] 多智能体架构设计 - 编排器-工作器模式为核心架构:主智能体负责协调,子智能体并行执行任务,通过动态搜索替代传统RAG的静态检索 [13][16][19] - 并行工具调用实现效率飞跃:引入两层并行化(主智能体同时启动3-5个子智能体,子智能体并行使用3+工具)使复杂查询研究时间缩短90% [25][26] - 上下文管理策略关键:采用外部内存存储关键信息、智能压缩机制防止溢出,子智能体输出直接写入文件系统减少token开销 [35][36] 多智能体适用场景 - 最佳应用领域:开放式研究任务(如跨领域软件开发、商业策略制定、学术研究),可覆盖信息量超出单智能体能力的广度型查询 [9][38] - 当前不适用场景:需要共享同一上下文的高依赖任务(如实时编码协调),LLM智能体尚无法有效处理任务分配与实时协调 [12][57] - 典型成功案例:Anthropic多智能体系统完成标普500公司董事会成员搜索等复杂研究任务,而单智能体系统失败 [9] 多智能体工程挑战 - 提示工程决定系统行为:需开发智能体心理模型,明确任务分配规则(简单查询1个智能体3-10次调用,复杂研究10+子智能体) [21][23] - 调试复杂度指数级增长:微小提示改动引发连锁反应,需建立模拟环境观察失败模式(如子智能体重复搜索、工具选择错误) [21][31] - 部署策略特殊:采用彩虹部署逐步迁移流量,避免中断运行中的智能体状态 [33] 多智能体评估方法 - 传统评估方法失效:需采用最终状态评估而非路径验证,LLM评判者规模化评估事实准确性、引用质量等维度 [27][28][29] - 人工测试不可替代:发现自动化评估遗漏的边缘情况(如SEO内容偏好),修正信息源选择偏差 [29] - 涌现行为需监控:智能体交互产生非预期行为,需追踪决策模式与交互结构 [30] AI Coding领域实践 - Cognition实践表明:2025年技术条件下,编程任务采用多智能体会导致系统脆弱,因决策分散且上下文共享不足 [57] - 单线程线性agent更可靠:Claude Code子agent仅回答明确定义问题,避免并行工作导致的矛盾输出 [55] - 上下文工程是核心:需压缩历史对话关键细节,微调专用模型管理长上下文 [53]
从Copilot到Agent:AI编程的范式革新
西部证券· 2025-03-12 19:16
行业投资评级 - 行业评级为超配 维持前次评级 [5] 核心观点 - AI Coding正在成为Agent商业化的突破口 编程领域的规则明确性为Agent应用提供了天然约束框架 编程环境的技术特性为Agent自纠错提供了理想试验场 编程原子化任务与大模型链式推理机制深度契合 [1][8] - 企业开发效率的刚需创造了明确付费意愿 AI编程领域已逐步形成"技术验证-产品迭代-商业变现"的完整闭环 [1][8] - AI大模型在编程中的应用发展分为"Copilot→Agent→Multi-Agent"三个阶段 目前各大厂商AI coding产品多处于第一阶段向第二阶段迈进的关键节点 [2][9] 技术发展三阶段 - 第一阶段LLM as Copilot:大模型作为Copilot辅助程序员完成任务 不改变软件工程的专业分工 [2][9] - 第二阶段LLM as Agent:Agent能够自主完成一部分任务 成为单一职能专家 自主使用工具完成预定任务 [2][9] - 第三阶段LLM as Multi-Agent:多智能体互相协作完成复杂任务 人类负责创意纠偏和确认工作 [2][9] 国际领先产品分析 - GitHub Copilot:2024年7月ARR达3亿美元 占GitHub整体收入增长的40% 拥有180万付费订阅用户 [13] 2025年2月推出Agent模式 自主执行能力显著提升 可实现自主迭代代码识别错误并自动修复 [15] - Cursor:2024年8月完成4亿美元A轮融资 2024年12月估值达25亿美元 2025年3月ARR可能已增长至1.5亿美元 估值或突破100亿美元 [17][18][19] - Devin:2024年4月估值达20亿美元 2024年12月全面开放 订阅费用为$500/月 客户包括年收入3亿美元的Ramp和年收入17亿美元的MongoDB [20][21] 国内主要产品进展 - 字节豆包MarsCode:2025年3月正式上线国内首个AI原生集成开发环境Trae 配置Doubao-1.5-pro模型 支持切换DeepSeek R1和V3模型 [22][23] - 百度文心快码Comate:公司80%工程师深度使用 代码采纳率达46% 新增代码生成占比29% 已升级至3.0版本 由Copilot模式升级为Agent模式 [26][27] - 阿里通义灵码:正式发布AI程序员 开发效率提升数十倍 生成速度最快达分钟级 能够自主执行任务拆解代码编写缺陷修复测试等全过程任务 [28][29] - 腾讯云AI代码助手:接入DeepSeek-R1满血版 代码生成准确率提升30%+ 支持函数级/模块级代码生成 [31] - 智谱CodeGeeX:截至2024年7月个人用户数量超100万 与英特尔合作发布AIPC版 可部署在端侧完成AI任务 [32][33] - 商汤代码小浣熊:采用2B+2C双轮驱动 C端分为个人免费版和49元升级收费版 B端企业标准版按899元/人/年收费 [34][35] - 艾普阳SnapDevelop:纯国产化低代码IDE 全面满足信创研发需求 集成ChatGPT服务海外用户 [36] - 普元信息:推出低代码Copilot模式 接入DeepSeek 32B和671B超大规模私有化模型 [37][38] 建议关注标的 - 商汤-W(已覆盖)卓易信息普元信息金现代科大国创等 [3]