智能体系统

搜索文档
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 12:12
多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题,这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩,子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出,比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式,主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体,从不同角度并行探索[18] - 与传统RAG方法不同,采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异,工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%,从几小时降至几分钟[41] - 提示词工程是优化行为主要手段,需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色,能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法,通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积,需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略,逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈,异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大,需要大量工程投入实现稳定运行[61]
Anthropic是如何构建多智能体系统的? | Jinqiu Select
锦秋集· 2025-06-14 11:58
多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化(主智能体同时启动3-5个子智能体,每个子智能体并行使用3个以上工具)使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式:主智能体分析需求并制定策略,创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口,可同时处理不同搜索任务,最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法,采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则:简单查询1个智能体执行3-10次工具调用,复杂研究需10个以上子智能体 [2][22] - 工具设计是关键:优先使用专门工具而非通用工具,每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略:从简短宽泛查询开始,逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者,从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始:20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题,如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量,避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈:主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障(重试逻辑和定期检查点) [33][34] 应用场景分布 - 主要使用场景:开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]
区域型银行如何实现AI战略突围?
麦肯锡· 2025-06-11 17:24
生成式AI在银行业的应用现状 - 全球银行业生成式AI应用已从技术探索转向价值变现阶段,摩根士丹利向1.5万名财务顾问推出AI工具,ING在10个市场部署智能聊天机器人覆盖3,700万客户[1] - AI应用场景从内部运营(客户经理赋能、软件开发提效)向客户端延展(AI客服、个性化营销)[2] - 多智能体系统成为技术革新方向,可覆盖复杂流程的"一站式"解决方案,未来或成为从业者的虚拟同事[3] AI对银行业的经济影响 - 银行业AI潜在生产力提升达2,000亿至3,400亿美元,未来三年利润率影响将逐步提升至60%-80%[4] - 软件开发、运营、市场营销、风控与法务四大板块增效潜力最大,充分释放AI潜力可带来14%-24%的潜在利润提升[4] - 客户经理AI copilot助手可使活跃客户覆盖数提升5%-15%,单客收入提升5%-10%[12] AI应用面临的挑战 - 数据孤岛是主要瓶颈,40%企业存在50个以上数据孤岛,导致模型精度下降20%-30%[7] - 复合型人才短缺严重,2030年中国AI人才缺口预计达500万,兼具算法与金融业务能力者不足15%[7] 六大高价值AI应用场景 - 信用风险管理:全流程自动化生成GenAI贷方通知单原型[10] - 客户关系管理:AI驱动的RM copilot系统实现自动化投资组合优化[10] - 软件开发提效:智能体系统重构代码工作流[10] - 智能客服中心:多模态对话机器人集成方言识别与情绪感知[10] - 超个性化服务:动态推荐引擎生成分钟级调优的跨资产配置方案[10] - 知识管理与洞察:GenAI知识中枢构建秒级响应智能问答系统[10] 区域型银行AI战略路径 - 路径选择分为建造者(重构核心业务)、革新者(重塑中后台)、采用者(专注效率提升)三种模式,90%银行开始构建企业级AI全栈架构[14] - 战略融合需实现语音语义升级、实时反馈、定制化内容生成,并通过顶层目标校准与全局性变革管理保障落地[15][16] - 生态合作是区域银行性价比最高的选择,可快速形成战略梳理和用例接入[17] 行业竞争格局演变 - AI正从效率工具进化为银行核心竞争力,区域银行需立足本地化优势聚焦高价值场景[18] - 多智能体协同模式加速价值变现,AI协作智能体可能以Copilot助手形式服务员工及客户[9][11]
低空经济与卫星互联网安全专题论坛举行
搜狐财经· 2025-05-31 18:55
低空经济发展与数字化转型 - 中国低空经济将进入万亿级市场,具有辐射面广、产业链条长、成长性强、带动性强等特点 [2] - 低空经济发展需全面认识无人机的安全性并加强风险防控 [2] - 无人机事故频发已成为制约产业发展的瓶颈,需构建"政府监管+产业防护+公众意识"三位一体的协同体系 [2] 无人机集群协同与安全技术 - 多智能体系统(MAS)与大型语言模型(LLM)在无人机集群协同中有创新应用,可解决广域监控、动态物流等场景的覆盖不足和实时性差问题 [3] - 身份认证、通信加密等安全机制对无人机集群系统稳定性至关重要 [3] - 未来研究将深化MAS+LLM融合,推动无人机集群向智能化、自主化与高安全性发展 [3] 卫星通信与无人机应用 - "空天一体"通信架构推动传统无人机在远距离、复杂环境下的应用 [3] - 卫星互联网网络攻击手段日趋多样,卫星通信链路复杂性增加,用户端流量管控需求强烈 [3] - 构建高效、可靠的安全防护体系是卫星互联网发展的重要课题 [3] 行业合作与未来展望 - 2025年将深耕低空经济与卫星互联网安全领域,深化"空天地一体化"安全生态布局 [5] - 产业链上下游伙伴、高校及科研院所将携手共建技术标准与创新应用,开拓低空经济新场景 [5] - 《2024卫星互联网安全年度报告》发布,推动低空经济与卫星互联网安全领域系统化、智能化发展 [5]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
AI智能体(七):多智能体架构
36氪· 2025-05-21 07:13
AI智能体架构模式 - 单智能体架构在简单明确任务中表现高效 但随着任务复杂度提升会面临工具过载、上下文膨胀和错误增加等挑战 [9][10] - 多智能体架构适用于需要专业知识协作、动态复杂且需扩展性的场景 各智能体专注专业领域可提升解决方案质量并降低开发难度 [11] - 实践表明并非所有场景都适合多角色架构 某些情况下简单架构反而更高效经济 [8] 多智能体系统模式 并行模式 - 多个智能体同步处理任务不同部分 如三个智能体并行完成文本摘要、翻译和情感分析 [12] - 典型特征包括执行独立性、通过队列实现结果安全收集 适合大规模文本的并行处理 [20] - 实际案例显示并行处理可显著节省时间 三个子任务累计耗时6.5秒而实际总耗时仅3.01秒 [19] 串行模式 - 任务按严格顺序处理 前一智能体输出作为后一智能体输入 如企业三级审批流程 [20] - 关键机制包括状态继承和熔断机制 任一节点拒绝即终止后续处理 [24] - 典型应用场景包括多步审批流程 提案对象在流程中持续累积审批意见 [28] 循环模式 - 智能体按迭代循环执行 根据反馈不断改进输出 如代码编写与测试的迭代过程 [25] - 具备全面反馈机制 测试模块报告所有失败案例供编写模块逐步修复 [34] - 循环终止条件智能设定 测试通过后即终止避免无意义迭代 [35] 路由器模式 - 中心路由器根据输入决定调用特定智能体 如客户支持工单分类路由 [37] - 采用动态路由机制和条件驱动流程 通过关键词实现初步分类 [38] - 系统扩展性强 新增团队服务模块无需修改核心路由框架 [46] 聚合器模式 - 由聚合器智能体收集各子智能体输出并合成最终结果 如社交媒体情绪分析 [47] - 实际案例显示Twitter、Instagram和Reddit的情绪分析结果被聚合为整体报告 [55] - 采用并行数据收集与串行聚合相结合的模式 显著提升处理效率 [59] 智能体通信机制 - 主要通信方式包括图状态传递和工具调用 需考虑模式兼容性问题 [81] - 共享消息列表可分为完整历史共享和最终结果共享两种策略 各有优劣 [84] - 不同状态模式处理需定义输入输出转换逻辑或私有状态模式 [83]
成熟的编程智能体,已经学会升级自己的系统了
机器之心· 2025-05-05 11:40
编程智能体发展 - 编程智能体成为2025年最热门话题之一,学术与工业界正探索高效落地路径,手工设计解决方案可能被自主学习方案取代 [2] - 研究提出完全自我参照式元智能体编程方案,突破传统元智能体与目标智能体分离的限制 [2][6] SICA技术框架 - SICA运行循环类似ADAS,但动态选择表现最佳的智能体作为元智能体,并保留历史档案优化迭代 [4] - 效用函数量化智能体性能,权重分配为基准分数50%、成本25%、时间25%,超时惩罚系数0.5 [5] - 上下文结构包含系统提示、核心问题陈述及运行日志,支持KV缓存以减少延迟和成本 [8][10] 实验性能改进 - 在SWE Bench验证集中,SICA实现17%-53%的性能提升,尤其在文件编辑和符号导航任务中显著优化效率 [6][12] - LiveCodeBench任务改进较微弱,推理任务中因模型与系统交互问题导致提升有限 [13][14] - 文件编辑基准中,智能体从低效覆盖文件发展到差异编辑工具,符号导航任务通过AST定位器提升效果 [13] 技术实现特点 - SICA采用标准Python实现,无领域特定语言,提供可扩展的参考框架支持LLM后训练 [6] - 实验使用Sonnet 3 5和o3-mini模型,推理任务中模型与系统协同效果影响最终表现 [12][13]
Manus母公司获7500万美元融资,估值飙升5亿,海外扩张计划曝光
搜狐财经· 2025-04-27 21:58
融资情况 - 蝴蝶效应成功募集7500万美元(约5 47亿元人民币)资金 由硅谷风投Benchmark主导 [1] - 现有投资者追加投资 资金将主要用于推动AI智能体系统发展 [2] - 2022年7月获真格基金天使轮投资 2023年1月获红杉中国和腾讯投资A轮融资 2024年12月腾讯投资领投B轮融资 [2] 业务发展 - Manus计划利用融资扩大用户基础 解决服务器容量和运营成本限制问题 [3] - 每项任务需向Anthropic支付2美元使用Claude AI模型 [3] - 计划拓展美国 日本和中东市场 可能在日本设立新办公室 [3] 市场影响 - Manus品牌影响力迅速扩大 带动A股相关概念企业股价上涨 [2] - 核心竞争力为一键式网站搭建和任务完成功能 [2] - 多家科技巨头推出类似产品 市场竞争加剧 [2] 技术方向 - AI智能体系统旨在通过技术创新替代人类执行日常任务 [2]
传Manus母公司完成7500万美元融资,估值达5亿美元大涨4倍
搜狐财经· 2025-04-27 19:51
报道称Manus母公司获得Benchmark领投融资,估值飙升至5亿美元 据证券时报,Manus的母公司蝴蝶效应(Butterfly Effect)于近日成功完成了新一轮融资,金额达到 7500万美元(约合人民币5.47亿元)。 据透露,此次融资由硅谷一家知名风险投资公司Benchmark领投,同时吸引了现有投资者的参与,资金 将主要用于探索通过AI智能体系统来替代人类完成日常任务。 Manus发布当日,在海量自媒体的宣传之下,其迅速破圈,并引发了一轮A股相关概念企业的快速上 涨。 而具体到功能上来看,Manus的主要卖点是帮助使用者一键搭建网站、完成任务。不过,在Manus出现 后,各个大厂的类似产品也快速面世。 在融资上,此前Butterfly Effect曾凭借Manus AI于2022年7月获得真格基金的天使轮融资,2023年1月获 得红杉中国、腾讯投资领投的A轮融资,2024年12月获得了腾讯投资领投的B轮融资。 而在资金应用方面,根据The Information报道, Manus AI或将打算利用新一轮的融资扩展更多用户,在 Manus爆火后,由于其满足产品需求的能力受到服务器容量和运营成本的限 ...
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径,包括引入强化学习与奖励模型优化单一模型的推理路径,以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性,但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM),提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法,将复杂问题分解为有向无环任务图(DAG),再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成:使用大语言模型将复杂问题转化为分步骤的有向无环任务图,测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择:粗粒度搜索采用UCB算法筛选候选智能体,细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本,用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%,显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法,如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比,ReSo在保持较高准确率的同时,展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据,包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集,单个样本包含多学科任务,复杂度分为3、5、7三个级别 [32]