智能体系统 - 财报，业绩电话会，研报，新闻

智能体系统

搜索文档

机器之心· 2025-06-14 12:12

多智能体系统概述 - 多智能体系统特别适合解决开放式研究问题，这类问题需要动态调整方法和路径[6] - 研究本质是信息压缩，子智能体通过并行处理不同方面信息辅助主智能体完成压缩过程[7] - 多智能体系统在"广度优先"查询任务中表现突出，比单智能体系统性能提升90.2%[8] 系统架构设计 - 采用"协调者-执行者"模式，主导智能体协调多个并行子智能体[14] - 用户查询先由主导智能体分析并生成子智能体，从不同角度并行探索[18] - 与传统RAG方法不同，采用动态搜索流程根据中间结果调整方向[20] - 主导智能体LeadResearcher负责持久化研究计划和综合分析子智能体反馈[21][22][23] 性能优化关键 - token消耗量单独解释80%性能差异，工具调用次数和模型选择是另两个关键因素[15] - 并行调用工具使研究时间缩短90%，从几小时降至几分钟[41] - 提示词工程是优化行为主要手段，需建立准确心理模型[27] - Claude 4系列在提示词工程表现出色，能自我诊断失败原因并提出改进[32] 评估方法 - 采用"LLM担任评审官"方法，通过0.0-1.0评分评估输出质量[49][51] - 评估维度包括事实准确性、引用准确性、完整性等五个方面[58] - 早期开发阶段小样本评估即可发现显著影响[46] - 人工评估能发现自动化评估遗漏的边缘案例问题[54] 工程挑战 - 智能体有状态特性使错误会累积，需构建从错误状态恢复的系统[56] - 部署采用彩虹部署策略，逐步转移流量避免干扰运行中智能体[59] - 同步执行造成瓶颈，异步执行可提高并行性但增加协调复杂度[59] - 原型与生产环境差距较大，需要大量工程投入实现稳定运行[61]

多智能体系统

提示词工程

Artificial Intelligence

Artificial Intelligence

Claude AI

Claude Opus 4

Claude Sonnet 4

Anthropic是如何构建多智能体系统的？ | Jinqiu Select

锦秋集· 2025-06-14 11:58

多智能体系统性能提升 - 以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统比单独使用Claude Opus 4性能提升90.2% [1][9] - 多智能体系统使用的token是普通聊天的15倍 [1][10] - 通过两层并行化（主智能体同时启动3-5个子智能体，每个子智能体并行使用3个以上工具）使复杂查询研究时间缩短90% [26][27] 系统架构设计 - 采用编排器-工作器模式：主智能体分析需求并制定策略，创建多个子智能体并行探索不同维度信息 [12][15] - 每个子智能体拥有独立上下文窗口，可同时处理不同搜索任务，最后汇总给主智能体 [1][8] - 相比传统检索增强生成(RAG)方法，采用多步动态搜索能灵活调整策略并深入分析 [15] 提示工程原则 - 资源分配需明确规则：简单查询1个智能体执行3-10次工具调用，复杂研究需10个以上子智能体 [2][22] - 工具设计是关键：优先使用专门工具而非通用工具，每个工具需有独特明确用途 [22][23] - 采用先广后精搜索策略：从简短宽泛查询开始，逐步聚焦细节 [23][27] 评估方法创新 - 使用LLM作为评判者，从事实准确性、引用准确性、完整性等维度评分 [30][31] - 从小规模测试开始：20个代表真实使用场景的查询即可验证改动效果 [29] - 人工评估发现自动化遗漏问题，如信息源选择偏差 [32] 生产环境挑战 - 采用彩虹部署策略逐步迁移流量，避免中断运行中的智能体 [34][35] - 同步执行造成瓶颈：主智能体需等待每批子智能体完成才能继续 [35][36] - 错误处理需结合AI智能体适应能力与确定性保障（重试逻辑和定期检查点） [33][34] 应用场景分布 - 主要使用场景：开发跨专业领域软件系统(10%)、优化专业技术内容(8%)、制定业务增长策略(8%)、学术研究(7%)、验证组织信息(5%) [3][39]

AI智能体应用

多智能体系统

Artificial Intelligence

Artificial Intelligence

麦肯锡· 2025-06-11 17:24

生成式AI在银行业的应用现状 - 全球银行业生成式AI应用已从技术探索转向价值变现阶段，摩根士丹利向1.5万名财务顾问推出AI工具，ING在10个市场部署智能聊天机器人覆盖3,700万客户[1] - AI应用场景从内部运营（客户经理赋能、软件开发提效）向客户端延展（AI客服、个性化营销）[2] - 多智能体系统成为技术革新方向，可覆盖复杂流程的"一站式"解决方案，未来或成为从业者的虚拟同事[3] AI对银行业的经济影响 - 银行业AI潜在生产力提升达2,000亿至3,400亿美元，未来三年利润率影响将逐步提升至60%-80%[4] - 软件开发、运营、市场营销、风控与法务四大板块增效潜力最大，充分释放AI潜力可带来14%-24%的潜在利润提升[4] - 客户经理AI copilot助手可使活跃客户覆盖数提升5%-15%，单客收入提升5%-10%[12] AI应用面临的挑战 - 数据孤岛是主要瓶颈，40%企业存在50个以上数据孤岛，导致模型精度下降20%-30%[7] - 复合型人才短缺严重，2030年中国AI人才缺口预计达500万，兼具算法与金融业务能力者不足15%[7] 六大高价值AI应用场景 - 信用风险管理：全流程自动化生成GenAI贷方通知单原型[10] - 客户关系管理：AI驱动的RM copilot系统实现自动化投资组合优化[10] - 软件开发提效：智能体系统重构代码工作流[10] - 智能客服中心：多模态对话机器人集成方言识别与情绪感知[10] - 超个性化服务：动态推荐引擎生成分钟级调优的跨资产配置方案[10] - 知识管理与洞察：GenAI知识中枢构建秒级响应智能问答系统[10] 区域型银行AI战略路径 - 路径选择分为建造者（重构核心业务）、革新者（重塑中后台）、采用者（专注效率提升）三种模式，90%银行开始构建企业级AI全栈架构[14] - 战略融合需实现语音语义升级、实时反馈、定制化内容生成，并通过顶层目标校准与全局性变革管理保障落地[15][16] - 生态合作是区域银行性价比最高的选择，可快速形成战略梳理和用例接入[17] 行业竞争格局演变 - AI正从效率工具进化为银行核心竞争力，区域银行需立足本地化优势聚焦高价值场景[18] - 多智能体协同模式加速价值变现，AI协作智能体可能以Copilot助手形式服务员工及客户[9][11]

Artificial Intelligence

Artificial Intelligence

搜狐财经· 2025-05-31 18:55

低空经济发展与数字化转型 - 中国低空经济将进入万亿级市场，具有辐射面广、产业链条长、成长性强、带动性强等特点 [2] - 低空经济发展需全面认识无人机的安全性并加强风险防控 [2] - 无人机事故频发已成为制约产业发展的瓶颈，需构建"政府监管+产业防护+公众意识"三位一体的协同体系 [2] 无人机集群协同与安全技术 - 多智能体系统（MAS）与大型语言模型（LLM）在无人机集群协同中有创新应用，可解决广域监控、动态物流等场景的覆盖不足和实时性差问题 [3] - 身份认证、通信加密等安全机制对无人机集群系统稳定性至关重要 [3] - 未来研究将深化MAS+LLM融合，推动无人机集群向智能化、自主化与高安全性发展 [3] 卫星通信与无人机应用 - "空天一体"通信架构推动传统无人机在远距离、复杂环境下的应用 [3] - 卫星互联网网络攻击手段日趋多样，卫星通信链路复杂性增加，用户端流量管控需求强烈 [3] - 构建高效、可靠的安全防护体系是卫星互联网发展的重要课题 [3] 行业合作与未来展望 - 2025年将深耕低空经济与卫星互联网安全领域，深化"空天地一体化"安全生态布局 [5] - 产业链上下游伙伴、高校及科研院所将携手共建技术标准与创新应用，开拓低空经济新场景 [5] - 《2024卫星互联网安全年度报告》发布，推动低空经济与卫星互联网安全领域系统化、智能化发展 [5]

ICML 2025 Spotlight | 谁导致了多智能体系统的失败？首个「自动化失败归因」研究出炉

机器之心· 2025-05-30 11:28

多智能体系统自动化失败归因研究核心观点 - LLM驱动的多智能体系统存在脆弱性，Agent间误解、信息传递错误或决策不当易导致整体任务失败，但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务，目标是自动识别导致失败的Agent（Who）和错误步骤（When）[1][5] - 研究构建首个基准数据集Who&When，包含127个多智能体系统失败日志，涵盖GAIA等公开基准，并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法：All-at-Once（整体判断，成本低但易忽略细节）、Step-by-Step（逐轮分析，精度高但成本高）、Binary Search（二分法平衡成本与精度）[13] - 混合策略（如All-at-Once+Step-by-Step）可提升准确率，但计算成本显著增加（达149,177 Token）[10][11] 实验结果 - 当前方法效果有限：最佳模型识别出错Agent准确率仅53.5%，定位错误步骤准确率仅14.2%[13] - 方法互补性明显：All-at-Once擅长识别责任Agent（57.02%准确率），Step-by-Step更适合定位错误步骤（7.9%准确率）[11][13] - 现有SOTA模型（如OpenAI o1、DeepSeek R1）表现不理想，远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白，首次将失败原因量化，为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床，推动更可靠的多Agent系统开发[6][16]

36氪· 2025-05-21 07:13

AI智能体架构模式 - 单智能体架构在简单明确任务中表现高效但随着任务复杂度提升会面临工具过载、上下文膨胀和错误增加等挑战 [9][10] - 多智能体架构适用于需要专业知识协作、动态复杂且需扩展性的场景各智能体专注专业领域可提升解决方案质量并降低开发难度 [11] - 实践表明并非所有场景都适合多角色架构某些情况下简单架构反而更高效经济 [8] 多智能体系统模式并行模式 - 多个智能体同步处理任务不同部分如三个智能体并行完成文本摘要、翻译和情感分析 [12] - 典型特征包括执行独立性、通过队列实现结果安全收集适合大规模文本的并行处理 [20] - 实际案例显示并行处理可显著节省时间三个子任务累计耗时6.5秒而实际总耗时仅3.01秒 [19] 串行模式 - 任务按严格顺序处理前一智能体输出作为后一智能体输入如企业三级审批流程 [20] - 关键机制包括状态继承和熔断机制任一节点拒绝即终止后续处理 [24] - 典型应用场景包括多步审批流程提案对象在流程中持续累积审批意见 [28] 循环模式 - 智能体按迭代循环执行根据反馈不断改进输出如代码编写与测试的迭代过程 [25] - 具备全面反馈机制测试模块报告所有失败案例供编写模块逐步修复 [34] - 循环终止条件智能设定测试通过后即终止避免无意义迭代 [35] 路由器模式 - 中心路由器根据输入决定调用特定智能体如客户支持工单分类路由 [37] - 采用动态路由机制和条件驱动流程通过关键词实现初步分类 [38] - 系统扩展性强新增团队服务模块无需修改核心路由框架 [46] 聚合器模式 - 由聚合器智能体收集各子智能体输出并合成最终结果如社交媒体情绪分析 [47] - 实际案例显示Twitter、Instagram和Reddit的情绪分析结果被聚合为整体报告 [55] - 采用并行数据收集与串行聚合相结合的模式显著提升处理效率 [59] 智能体通信机制 - 主要通信方式包括图状态传递和工具调用需考虑模式兼容性问题 [81] - 共享消息列表可分为完整历史共享和最终结果共享两种策略各有优劣 [84] - 不同状态模式处理需定义输入输出转换逻辑或私有状态模式 [83]

Artificial Intelligence

Artificial Intelligence

AI智能体

成熟的编程智能体，已经学会升级自己的系统了

机器之心· 2025-05-05 11:40

编程智能体发展 - 编程智能体成为2025年最热门话题之一，学术与工业界正探索高效落地路径，手工设计解决方案可能被自主学习方案取代 [2] - 研究提出完全自我参照式元智能体编程方案，突破传统元智能体与目标智能体分离的限制 [2][6] SICA技术框架 - SICA运行循环类似ADAS，但动态选择表现最佳的智能体作为元智能体，并保留历史档案优化迭代 [4] - 效用函数量化智能体性能，权重分配为基准分数50%、成本25%、时间25%，超时惩罚系数0.5 [5] - 上下文结构包含系统提示、核心问题陈述及运行日志，支持KV缓存以减少延迟和成本 [8][10] 实验性能改进 - 在SWE Bench验证集中，SICA实现17%-53%的性能提升，尤其在文件编辑和符号导航任务中显著优化效率 [6][12] - LiveCodeBench任务改进较微弱，推理任务中因模型与系统交互问题导致提升有限 [13][14] - 文件编辑基准中，智能体从低效覆盖文件发展到差异编辑工具，符号导航任务通过AST定位器提升效果 [13] 技术实现特点 - SICA采用标准Python实现，无领域特定语言，提供可扩展的参考框架支持LLM后训练 [6] - 实验使用Sonnet 3 5和o3-mini模型，推理任务中模型与系统协同效果影响最终表现 [12][13]

智能体系统自动设计（ADAS）

自我参照式的元智能体编程

Artificial Intelligence

自我改进编码智能体（SICA）

智能体系统自动设计（ADAS）

自我参照式的元智能体编程

Artificial Intelligence

自我改进编码智能体（SICA）

Manus母公司获7500万美元融资，估值飙升5亿，海外扩张计划曝光

搜狐财经· 2025-04-27 21:58

融资情况 - 蝴蝶效应成功募集7500万美元（约5 47亿元人民币）资金由硅谷风投Benchmark主导 [1] - 现有投资者追加投资资金将主要用于推动AI智能体系统发展 [2] - 2022年7月获真格基金天使轮投资 2023年1月获红杉中国和腾讯投资A轮融资 2024年12月腾讯投资领投B轮融资 [2] 业务发展 - Manus计划利用融资扩大用户基础解决服务器容量和运营成本限制问题 [3] - 每项任务需向Anthropic支付2美元使用Claude AI模型 [3] - 计划拓展美国日本和中东市场可能在日本设立新办公室 [3] 市场影响 - Manus品牌影响力迅速扩大带动A股相关概念企业股价上涨 [2] - 核心竞争力为一键式网站搭建和任务完成功能 [2] - 多家科技巨头推出类似产品市场竞争加剧 [2] 技术方向 - AI智能体系统旨在通过技术创新替代人类执行日常任务 [2]

传Manus母公司完成7500万美元融资，估值达5亿美元大涨4倍

搜狐财经· 2025-04-27 19:51

报道称Manus母公司获得Benchmark领投融资，估值飙升至5亿美元据证券时报，Manus的母公司蝴蝶效应（Butterfly Effect）于近日成功完成了新一轮融资，金额达到 7500万美元（约合人民币5.47亿元）。据透露，此次融资由硅谷一家知名风险投资公司Benchmark领投，同时吸引了现有投资者的参与，资金将主要用于探索通过AI智能体系统来替代人类完成日常任务。 Manus发布当日，在海量自媒体的宣传之下，其迅速破圈，并引发了一轮A股相关概念企业的快速上涨。而具体到功能上来看，Manus的主要卖点是帮助使用者一键搭建网站、完成任务。不过，在Manus出现后，各个大厂的类似产品也快速面世。在融资上，此前Butterfly Effect曾凭借Manus AI于2022年7月获得真格基金的天使轮融资，2023年1月获得红杉中国、腾讯投资领投的A轮融资，2024年12月获得了腾讯投资领投的B轮融资。而在资金应用方面，根据The Information报道， Manus AI或将打算利用新一轮的融资扩展更多用户，在 Manus爆火后，由于其满足产品需求的能力受到服务器容量和运营成本的限 ...

AI智能体系统

Artificial Intelligence

Manus AI

AI智能体系统

Artificial Intelligence

Manus AI

基于奖励驱动和自组织演化机制，全新框架ReSo重塑复杂推理任务中的智能协作

机器之心· 2025-04-27 18:40

研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径，包括引入强化学习与奖励模型优化单一模型的推理路径，以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性，但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo，能够自主适应复杂任务和灵活数量的智能体候选，无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM)，提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法，将复杂问题分解为有向无环任务图(DAG)，再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成：使用大语言模型将复杂问题转化为分步骤的有向无环任务图，测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择：粗粒度搜索采用UCB算法筛选候选智能体，细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本，用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%，显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法，如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比，ReSo在保持较高准确率的同时，展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据，包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集，单个样本包含多学科任务，复杂度分为3、5、7三个级别 [32]