多智能体系统

搜索文档
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 16:02
多智能体系统概述 - 多智能体系统由多个大型语言模型(LLM)智能体协同工作组成 主智能体(协调器)负责规划任务并委托给并行操作的子智能体 具体步骤包括任务分解、子智能体执行和结果合并[4][6] - 该系统特别适合开放式研究任务 因其具备动态调整和并行探索能力 在广度优先查询中性能比单智能体提升90.2%[14][27] - 核心架构采用协调者-工作者模式 主智能体(LeadResearcher)负责策略制定和结果综合 子智能体(Subagents)并行执行具体任务[29][30] 多智能体系统优势 - 并行操作优势显著:子智能体通过独立上下文窗口并行运行 主智能体可同时启动3-5个子智能体 使复杂查询研究时间缩短90%[16][17] - 信息处理效率提升:通过关注点分离和并行推理 系统能更彻底地调查问题 在识别S&P 500公司董事会成员等任务中表现优于单智能体[27] - 动态适应能力强:研究过程中可根据新发现调整方法 支持先广后深的搜索策略 模仿人类专家研究模式[33][34] 多智能体系统挑战 - 架构脆弱性问题:子智能体可能误解任务导致结果不一致 早期系统出现过为简单查询生成50个子代理等协调问题[10] - 上下文共享难题:子智能体间缺乏充分上下文共享 可能基于冲突假设行动 如分别构建不同风格的《飞扬的小鸟》游戏元素[19][20] - 资源消耗巨大:多智能体系统token消耗达聊天交互的15倍 仅适用于高价值任务 编码等依赖性强任务目前不适用[17][28] 解决方案与优化措施 - 严格领域限定:仅应用于适合并行化的研究任务 排除编码等依赖性强领域 通过专用提示工程明确子智能体职责[8][12] - 高级上下文管理:采用文件系统直接存储输出 建立记忆机制保存关键信息 在上下文接近限制时生成新智能体交接[16][30] - 精细化提示工程:包含7项核心原则 如教导协调器明确委派任务 根据查询复杂度动态调整工作量 优先使用专用工具等[33] 行业应用现状 - 主要应用场景包括:专业软件开发(10%)、技术内容优化(8%)、商业策略制定(8%)、学术研究辅助(7%)和信息验证(5%)[38] - 实际效果显著:用户反馈显示能发现新商业机会 解决技术难题 在医疗保健等领域节省数天研究时间[38] - 评估方法创新:采用LLM作为裁判评估事实准确性等维度 结合人工测试发现边缘案例 需同时关注结果正确性和过程合理性[36]
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 12:12
多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题,这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩,子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出,比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式,主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体,从不同角度并行探索[18] - 与传统RAG方法不同,采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异,工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%,从几小时降至几分钟[41] - 提示词工程是优化行为主要手段,需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色,能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法,通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积,需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略,逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈,异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大,需要大量工程投入实现稳定运行[61]
Anthropic是如何构建多智能体系统的? | Jinqiu Select
锦秋集· 2025-06-14 11:58
多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化(主智能体同时启动3-5个子智能体,每个子智能体并行使用3个以上工具)使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式:主智能体分析需求并制定策略,创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口,可同时处理不同搜索任务,最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法,采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则:简单查询1个智能体执行3-10次工具调用,复杂研究需10个以上子智能体 [2][22] - 工具设计是关键:优先使用专门工具而非通用工具,每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略:从简短宽泛查询开始,逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者,从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始:20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题,如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量,避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈:主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障(重试逻辑和定期检查点) [33][34] 应用场景分布 - 主要使用场景:开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]
区域型银行如何实现AI战略突围?
麦肯锡· 2025-06-11 17:24
生成式AI在银行业的应用现状 - 全球银行业生成式AI应用已从技术探索转向价值变现阶段,摩根士丹利向1.5万名财务顾问推出AI工具,ING在10个市场部署智能聊天机器人覆盖3,700万客户[1] - AI应用场景从内部运营(客户经理赋能、软件开发提效)向客户端延展(AI客服、个性化营销)[2] - 多智能体系统成为技术革新方向,可覆盖复杂流程的"一站式"解决方案,未来或成为从业者的虚拟同事[3] AI对银行业的经济影响 - 银行业AI潜在生产力提升达2,000亿至3,400亿美元,未来三年利润率影响将逐步提升至60%-80%[4] - 软件开发、运营、市场营销、风控与法务四大板块增效潜力最大,充分释放AI潜力可带来14%-24%的潜在利润提升[4] - 客户经理AI copilot助手可使活跃客户覆盖数提升5%-15%,单客收入提升5%-10%[12] AI应用面临的挑战 - 数据孤岛是主要瓶颈,40%企业存在50个以上数据孤岛,导致模型精度下降20%-30%[7] - 复合型人才短缺严重,2030年中国AI人才缺口预计达500万,兼具算法与金融业务能力者不足15%[7] 六大高价值AI应用场景 - 信用风险管理:全流程自动化生成GenAI贷方通知单原型[10] - 客户关系管理:AI驱动的RM copilot系统实现自动化投资组合优化[10] - 软件开发提效:智能体系统重构代码工作流[10] - 智能客服中心:多模态对话机器人集成方言识别与情绪感知[10] - 超个性化服务:动态推荐引擎生成分钟级调优的跨资产配置方案[10] - 知识管理与洞察:GenAI知识中枢构建秒级响应智能问答系统[10] 区域型银行AI战略路径 - 路径选择分为建造者(重构核心业务)、革新者(重塑中后台)、采用者(专注效率提升)三种模式,90%银行开始构建企业级AI全栈架构[14] - 战略融合需实现语音语义升级、实时反馈、定制化内容生成,并通过顶层目标校准与全局性变革管理保障落地[15][16] - 生态合作是区域银行性价比最高的选择,可快速形成战略梳理和用例接入[17] 行业竞争格局演变 - AI正从效率工具进化为银行核心竞争力,区域银行需立足本地化优势聚焦高价值场景[18] - 多智能体协同模式加速价值变现,AI协作智能体可能以Copilot助手形式服务员工及客户[9][11]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
AI智能体(七):多智能体架构
36氪· 2025-05-21 07:13
AI智能体架构模式 - 单智能体架构在简单明确任务中表现高效 但随着任务复杂度提升会面临工具过载、上下文膨胀和错误增加等挑战 [9][10] - 多智能体架构适用于需要专业知识协作、动态复杂且需扩展性的场景 各智能体专注专业领域可提升解决方案质量并降低开发难度 [11] - 实践表明并非所有场景都适合多角色架构 某些情况下简单架构反而更高效经济 [8] 多智能体系统模式 并行模式 - 多个智能体同步处理任务不同部分 如三个智能体并行完成文本摘要、翻译和情感分析 [12] - 典型特征包括执行独立性、通过队列实现结果安全收集 适合大规模文本的并行处理 [20] - 实际案例显示并行处理可显著节省时间 三个子任务累计耗时6.5秒而实际总耗时仅3.01秒 [19] 串行模式 - 任务按严格顺序处理 前一智能体输出作为后一智能体输入 如企业三级审批流程 [20] - 关键机制包括状态继承和熔断机制 任一节点拒绝即终止后续处理 [24] - 典型应用场景包括多步审批流程 提案对象在流程中持续累积审批意见 [28] 循环模式 - 智能体按迭代循环执行 根据反馈不断改进输出 如代码编写与测试的迭代过程 [25] - 具备全面反馈机制 测试模块报告所有失败案例供编写模块逐步修复 [34] - 循环终止条件智能设定 测试通过后即终止避免无意义迭代 [35] 路由器模式 - 中心路由器根据输入决定调用特定智能体 如客户支持工单分类路由 [37] - 采用动态路由机制和条件驱动流程 通过关键词实现初步分类 [38] - 系统扩展性强 新增团队服务模块无需修改核心路由框架 [46] 聚合器模式 - 由聚合器智能体收集各子智能体输出并合成最终结果 如社交媒体情绪分析 [47] - 实际案例显示Twitter、Instagram和Reddit的情绪分析结果被聚合为整体报告 [55] - 采用并行数据收集与串行聚合相结合的模式 显著提升处理效率 [59] 智能体通信机制 - 主要通信方式包括图状态传递和工具调用 需考虑模式兼容性问题 [81] - 共享消息列表可分为完整历史共享和最终结果共享两种策略 各有优劣 [84] - 不同状态模式处理需定义输入输出转换逻辑或私有状态模式 [83]