Workflow
Multi-Agent
icon
搜索文档
怎么做 Long-running Agents,Cursor、Anthropic 给了两种截然不同的思路
Founder Park· 2026-01-20 23:00
文章核心观点 当前AI Agent在独立、短时任务上表现良好,但执行复杂、长时任务仍面临挑战。Cursor和Anthropic分别提出了不同的工程实践方案:Cursor通过大规模并行运行多个具有角色分工的Agent来扩展项目规模;Anthropic则专注于解决单个Agent在跨越多个工作周期时的记忆连续性问题,通过双Agent方案和严格的工作流程来推进长时任务[3][4][27][29]。 Cursor的“多Agent并行协作”方案 - **目标与挑战**:旨在通过大规模并行运行成百上千个Agent来处理复杂、长时任务,如从零构建软件。核心挑战在于如何有效协调这些Agent,处理超过一百万行代码和数以万亿计的Token[8]。 - **协调机制的演进**: - **第一次尝试(扁平化协作与锁定机制)**:构建了完全扁平化的系统,Agent通过共享文件协调。但该方案失败,因锁机制导致吞吐量骤降(20个Agent仅相当于两三个的效率),系统脆弱,易因Agent崩溃或协调文件冲突而瘫痪[9][10][11]。 - **第二次尝试(乐观并发控制)**:采用乐观并发控制机制,Agent自由读取、认领任务并短暂锁定。此方案更稳健,但暴露了群体性“风险规避”问题,Agent倾向于执行细小任务,导致项目核心进展停滞[12][13][14]。 - **最终方案:引入角色分工的流水线体系**:摒弃扁平化结构,设立三个核心角色: - **规划者**:类似架构师,持续探索代码库、理解需求并派生任务,规划过程可并行化[21]。 - **工作者**:主力工程师,纯粹执行从任务池领取的单一任务,无需全局协调[21]。 - **裁判**:类似项目经理,定期评估进展并决定是否进入下一轮迭代[21]。 该体系解决了协调难题,能将项目规模扩展到前所未有的程度[15]。 - **实验验证与成果**: - **从零构建网页浏览器**:Agent团队运行近一周,在1,000个独立文件中编写了超过100万行代码,成功构建出基础浏览器。数百个工作者可同时向同一分支提交代码且冲突率极低[16][17]。 - **大型代码库原地迁移**:将大型项目前端框架从Solid迁移到React,耗时三周多,产生+266,000行新增和-193,000行删除的代码变更,并通过了持续集成系统检查[19][22]。 - **产品性能与功能优化**:Agent用Rust重写视频渲染模块,将渲染速度提升25倍,并增加了平滑缩放等新功能。该代码已被合并至主干即将上线[23]。 - **经验与教训**: - **模型选择至关重要**:GPT-5.2在长时间自主工作中表现更佳,能更好遵循指令、保持专注。不同模型擅长不同角色,例如GPT-5.2是比专门优化的GPT-5.1-Codex更优秀的规划者[24]。 - **简化系统设计**:许多改进源于“做减法”,例如移除了制造瓶颈的“集成者”角色。最好的系统往往比想象的更简单[24][25]。 - **结构需恰到好处**:结构太松散会导致冲突与偏离,太严密则系统脆弱。系统的绝大部分行为取决于prompt的精心编写[26]。 - **仍需进一步探索**:多Agent协调仍是难题,系统未达最优。例如,规划者应能自动唤醒,Agent存在运行时间过长问题,仍需定期重启以对抗目标偏离[26]。 Anthropic的“解决单个Agent记忆连续性”方案 - **核心思路**:专注于解决单个Agent在跨越多个有限上下文窗口工作时的“记忆连续性”问题,通过引入类似人类团队的分工协作机制,将复杂任务拆解并确保清晰交接[27][29][31]。 - **Agent在长任务中的主要问题**: - **一口气干太多**:试图一次性完成整个应用(如克隆claude.ai),导致代码混乱,给后续会话留下难以接手的半成品[33]。 - **过早宣布胜利**:项目仅完成一部分便停止工作[33]。 - **测试敷衍**:仅运行基础测试,未进行真实的端到端流程验证[33]。 这些问题的共同点是Agent缺乏全局目标认知和清晰的交接机制[30]。 - **双Agent方案设计**: - **第一步:初始化Agent**:仅在项目启动时运行,负责搭建完整的初始环境。其关键任务是将用户提示扩展为结构化的功能需求清单(JSON格式),例如在克隆claude.ai的示例中生成了超过200个功能描述。所有功能初始标记为“failing”,为后续工作提供清晰路线图[34][35][36][37][38]。 - **第二步:编码Agent**:在后续会话中接手工作,严格遵循“渐进式推进”原则,每次只完成一个功能并确保环境处于“干净状态”。其标准工作流程为:1) 理解现状(阅读进度文件和Git日志);2) 选择单一任务;3) 专注实现;4) 留下痕迹(提交代码并更新进度文件)[34][39][40][41]。 - **测试环节的改进**:为解决测试敷衍问题,为Agent配备浏览器自动化工具(如Puppeteer MCP),要求其像真实用户一样操作页面进行端到端验证。该方法大幅提升了功能验证的准确率,使Agent能自行定位和修复许多仅看代码无法发现的Bug[42][43][44][45][46]。 - **Agent“开工”标准流程**:每个编码Agent会话开始时,会按固定流程熟悉环境:运行pwd确认目录、阅读Git日志和进度文件、阅读功能清单、运行init.sh脚本启动服务器并运行基础测试,确保环境正常后再开始新工作[47][48][49][50]。 - **开放性问题**:未来是发展全能Agent还是由测试、质检等专家Agent组成的多Agent团队?当前为Web开发优化的方法能否推广到科学研究、金融建模等其他领域[53]。
迎接Agent爆发元年,七牛智能MaaS平台已成多模型调用“必选项”
格隆汇· 2026-01-19 11:46
公司核心产品与战略 - 七牛智能MaaS平台“AI大模型广场”全新开放 其定位为AI Native时代的开发底座 核心特性包括全场景覆盖的模型广场、极致兼容的API架构、前瞻性的Agent+MCP服务以及全栈式管理控制台 [1] - 平台的技术演进方向从单次往复对话转向由长序列、多步骤的智能体任务驱动 这导致平台模型调用更频繁、对上下文一致性要求更高 [1] - 平台技术趋势推动MaaS用户数量和单个用户token消耗量实现乘数级增长 [1] 公司运营与财务数据 - 自2025年MaaS平台推出以来 相关用户数快速放量突破18万 [2] - 截至2026年1月14日 七牛云平台注册用户总量已突破192万 最近几个月新增超过20万名开发者及企业用户 增速呈现非线性扩张 [2] - 2025年上半年财报显示 公司AI相关收入突破1.84亿元人民币 贡献了总收入的22.2% [2] 行业技术趋势与展望 - 2026年被资本市场普遍认为是多智能体推理的爆发元年 新工具层出不穷 生产范式倾向于更多步骤推理 [1] - 在多智能体任务场景下 多模型调度成为常态 MaaS平台由智能体任务驱动 [1]
关于 Multi-Agent 到底该不该做,Claude 和 Devin 吵起来了
Founder Park· 2025-06-16 22:16
多智能体系统核心观点 - Anthropic与Cognition两篇文章共同揭示了多智能体系统的适用场景与局限性:Anthropic强调多智能体在低依赖、可并行任务中的高效性(如研究任务),而Cognition指出高依赖、紧耦合任务(如AI Coding)目前不适合多智能体架构 [2][12][39] - 多智能体系统性能提升显著但成本高昂:Anthropic的测试显示多智能体系统比单智能体性能提升90.2%,但token消耗达普通聊天的15倍 [9][10] - 当前技术限制下,多智能体系统需满足三大条件:任务价值足够高、需要大量并行处理、信息量超出单个上下文窗口 [12][16] 多智能体架构设计 - 编排器-工作器模式为核心架构:主智能体负责协调,子智能体并行执行任务,通过动态搜索替代传统RAG的静态检索 [13][16][19] - 并行工具调用实现效率飞跃:引入两层并行化(主智能体同时启动3-5个子智能体,子智能体并行使用3+工具)使复杂查询研究时间缩短90% [25][26] - 上下文管理策略关键:采用外部内存存储关键信息、智能压缩机制防止溢出,子智能体输出直接写入文件系统减少token开销 [35][36] 多智能体适用场景 - 最佳应用领域:开放式研究任务(如跨领域软件开发、商业策略制定、学术研究),可覆盖信息量超出单智能体能力的广度型查询 [9][38] - 当前不适用场景:需要共享同一上下文的高依赖任务(如实时编码协调),LLM智能体尚无法有效处理任务分配与实时协调 [12][57] - 典型成功案例:Anthropic多智能体系统完成标普500公司董事会成员搜索等复杂研究任务,而单智能体系统失败 [9] 多智能体工程挑战 - 提示工程决定系统行为:需开发智能体心理模型,明确任务分配规则(简单查询1个智能体3-10次调用,复杂研究10+子智能体) [21][23] - 调试复杂度指数级增长:微小提示改动引发连锁反应,需建立模拟环境观察失败模式(如子智能体重复搜索、工具选择错误) [21][31] - 部署策略特殊:采用彩虹部署逐步迁移流量,避免中断运行中的智能体状态 [33] 多智能体评估方法 - 传统评估方法失效:需采用最终状态评估而非路径验证,LLM评判者规模化评估事实准确性、引用质量等维度 [27][28][29] - 人工测试不可替代:发现自动化评估遗漏的边缘情况(如SEO内容偏好),修正信息源选择偏差 [29] - 涌现行为需监控:智能体交互产生非预期行为,需追踪决策模式与交互结构 [30] AI Coding领域实践 - Cognition实践表明:2025年技术条件下,编程任务采用多智能体会导致系统脆弱,因决策分散且上下文共享不足 [57] - 单线程线性agent更可靠:Claude Code子agent仅回答明确定义问题,避免并行工作导致的矛盾输出 [55] - 上下文工程是核心:需压缩历史对话关键细节,微调专用模型管理长上下文 [53]
从Copilot到Agent:AI编程的范式革新
西部证券· 2025-03-12 19:16
行业投资评级 - 行业评级为超配 维持前次评级 [5] 核心观点 - AI Coding正在成为Agent商业化的突破口 编程领域的规则明确性为Agent应用提供了天然约束框架 编程环境的技术特性为Agent自纠错提供了理想试验场 编程原子化任务与大模型链式推理机制深度契合 [1][8] - 企业开发效率的刚需创造了明确付费意愿 AI编程领域已逐步形成"技术验证-产品迭代-商业变现"的完整闭环 [1][8] - AI大模型在编程中的应用发展分为"Copilot→Agent→Multi-Agent"三个阶段 目前各大厂商AI coding产品多处于第一阶段向第二阶段迈进的关键节点 [2][9] 技术发展三阶段 - 第一阶段LLM as Copilot:大模型作为Copilot辅助程序员完成任务 不改变软件工程的专业分工 [2][9] - 第二阶段LLM as Agent:Agent能够自主完成一部分任务 成为单一职能专家 自主使用工具完成预定任务 [2][9] - 第三阶段LLM as Multi-Agent:多智能体互相协作完成复杂任务 人类负责创意纠偏和确认工作 [2][9] 国际领先产品分析 - GitHub Copilot:2024年7月ARR达3亿美元 占GitHub整体收入增长的40% 拥有180万付费订阅用户 [13] 2025年2月推出Agent模式 自主执行能力显著提升 可实现自主迭代代码识别错误并自动修复 [15] - Cursor:2024年8月完成4亿美元A轮融资 2024年12月估值达25亿美元 2025年3月ARR可能已增长至1.5亿美元 估值或突破100亿美元 [17][18][19] - Devin:2024年4月估值达20亿美元 2024年12月全面开放 订阅费用为$500/月 客户包括年收入3亿美元的Ramp和年收入17亿美元的MongoDB [20][21] 国内主要产品进展 - 字节豆包MarsCode:2025年3月正式上线国内首个AI原生集成开发环境Trae 配置Doubao-1.5-pro模型 支持切换DeepSeek R1和V3模型 [22][23] - 百度文心快码Comate:公司80%工程师深度使用 代码采纳率达46% 新增代码生成占比29% 已升级至3.0版本 由Copilot模式升级为Agent模式 [26][27] - 阿里通义灵码:正式发布AI程序员 开发效率提升数十倍 生成速度最快达分钟级 能够自主执行任务拆解代码编写缺陷修复测试等全过程任务 [28][29] - 腾讯云AI代码助手:接入DeepSeek-R1满血版 代码生成准确率提升30%+ 支持函数级/模块级代码生成 [31] - 智谱CodeGeeX:截至2024年7月个人用户数量超100万 与英特尔合作发布AIPC版 可部署在端侧完成AI任务 [32][33] - 商汤代码小浣熊:采用2B+2C双轮驱动 C端分为个人免费版和49元升级收费版 B端企业标准版按899元/人/年收费 [34][35] - 艾普阳SnapDevelop:纯国产化低代码IDE 全面满足信创研发需求 集成ChatGPT服务海外用户 [36] - 普元信息:推出低代码Copilot模式 接入DeepSeek 32B和671B超大规模私有化模型 [37][38] 建议关注标的 - 商汤-W(已覆盖)卓易信息普元信息金现代科大国创等 [3]