Workflow
多智能体系统
icon
搜索文档
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
《2025上半年AI核心成果及趋势报告》由量子位智库发布,从应用、模型、技术、行业四个维度解析了AI领域的关键动态与趋势。 应用层面,通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富;以视觉操作为核心的Computer Use Agent (CUA)推向市场,正与文本类深度研究Agent融合。垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛,模型上 下文协议(MCP)虽受关注,但尚未规模化落地。 模型方面,推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异。大模型工具使用能力增强,端到端融合视觉与文本,多模态 推理能力提升,图像和视频生成在控制能力、审美等方面全面增强。小模型加速普及,降低部署门槛,模型评估向动态、实用任务方向演化。 技术上,资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练。多智能体系统成前沿范式,在线学习有望成下一代学习方 式,Transformer架构及混合架构快速迭代优化。代码验证成AI编程自动化提升的前沿,系统提示词对用户体验影响关键。 行业趋势显示,xAI的Gr ...
AI智能体(八):构建多智能体系统
36氪· 2025-07-28 07:12
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:2025年是AI智能体元年。本系列文章旨在介绍AI智能体的概念、类型、原理、架构、开发等,为进一步了解AI智能体提供入门知识。本文为系列 文章的第八篇,文章来自编译。 1. 引言 在评估智能体能在什么地方创造价值时,可优先考虑那些传统方法难以实现自动化、特别是会遇到瓶颈的工作流: 2. 智能体设计组件 就最基本形式而言,智能体包含了三个核心组件: 2.1 选择模型 不同的模型在任务复杂性、延迟和成本方面有不同的优势和权衡。并非每个任务都需要最智能的模型——一个简单的检索或意图分类任务可能由更小、更快 的模型处理,而像决定是否批准退款这样的困难任务则可能受益于能力更强的模型。 一个行之有效的方法是:在构建智能体原型时,为每个任务使用能力 最强的模型,以建立性能基准。然后,尝试用小一点的模型替换,看看是否仍能达到可接受的结果。这样,你就不会过早限制智能体的能力,并且可以诊断 出小一点的模型什么时候能行什么时候行不通。 总之,选择模型的原则很简单: 什么是函数调用最好的小模型? 复杂决策: 涉及微妙判断、例 ...
如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式
机器之心· 2025-07-24 11:19
多智能体系统发展现状 - 大语言模型技术突破推动AI智能体从单点能力向复杂系统协作演进,多智能体系统(MAS)成为学术和产业界新前沿 [1] - Agentic Workflow作为智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的热点方向 [1] - 谷歌、上海AI Lab等团队已推出Meta-GPT、ADAS、AFlow等创新性Agentic Workflow工作,推动任务规划与流程优化自动化 [2] 传统工作流系统的核心瓶颈 - 现有系统采用Python脚本或JSON树等命令式代码输出工作流,导致流程规划与实现深度耦合 [7] - 三大核心瓶颈:结构不透明(流程关系难以把控)、合理性难验证(缺乏静态检查机制)、调试与优化困难(错误需运行时暴露) [10] - 主流系统如ADAS、AFlow的低层次生成方式使结构信息隐含在复杂代码中 [7] MermaidFlow的创新解决方案 - 基于结构化图语言Mermaid,将智能体行为规划显式建模为可视化流程图谱,引入形式化语义确保可验证性 [7][11] - 核心特点:图式结构清晰可见(节点与连边可视化)、流程验证内嵌(依赖闭环/角色一致性等约束)、天然支持演化与调试 [11] - 形成从结构化图到可验证执行的一站式闭环,实现白盒流程管理 [12] 技术优势与实验性能 - 大语言模型对Mermaid语言具备天然生成优势,结合更丝滑高效 [13] - 在GSM8K、MATH等数据集上表现优异,生成可执行且结构合理工作流的成功率超90% [18] - 安全演化策略通过静态验证机制(节点类型匹配/输入输出闭环)过滤劣质图,提升搜索空间质量 [14][16] 行业应用前景 - 结构化可验证工作流为智能体系统提供"看得见、查得清、能进化"的流程底座 [22] - 模块化特性支持节点级操作,显著降低修改不确定性与调试复杂度 [14] - 框架有望推动智能体生态在高效可控协作流程方向的持续进步 [22]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 12:23
核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究,MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略,揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础,去中心化结构效率最高,且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**:区分规划者与执行者角色,实现任务分解与动态调度 [13] - **智能体图**:用三元组(agent1,关系,agent2)构建结构化关系网络,模拟真实团队架构 [14] - **认知模块**:提供个性化记忆与推理方式,支持策略动态调整 [15] 评测场景 - 覆盖6类场景:科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务,模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**:按场景定制化评价最终产出质量,如编程任务代码完成度 [27] - **协作总分(CS)**:综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**:动态检测关键节点达成情况,识别核心贡献智能体 [27] 关键结论 - **个体能力优先**:Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21,显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**:图结构去中心化协作效率最高,树型层级结构因沟通损耗表现最差 [38] - **规模效应**:智能体数量超过3个时出现"林格曼效应",KPI随规模扩大下降 [40][41] - **社会行为涌现**:狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**:通过复盘动态调整策略,优于小组讨论等传统方法 [38] - **动态关系网络**:支持协作/监督等多元关系,比固定指令更接近真实团队 [14] - **多模态评估**:同时量化任务结果(硬指标)与协作过程(软实力) [27][28]
探索金融多领域应用 中财融通大模型及上市公司研报智能体发布
搜狐财经· 2025-07-06 22:55
产品发布 - 中财融通大模型CUFEL及上市公司研报智能体CUFEL-A于7月5日在中央财经大学主办的2025中关村论坛系列活动-全球财经论坛上正式发布 [1] 技术特点 - CUFEL并非单一模型 而是一簇模型或高效微调流程 通过创新组合微调流程 在保持基础模型通用能力的同时增强垂直领域表现 特别适用于智能体构建与本地部署 [3] - CUFEL-A智能体采用"资料汇总 规划 架构与反思 撰写"四步流程 可独立产出A股上市公司原创深度研究报告 [5] - 研究团队基于"生成式 端到端 多智能体系统整体强化学习"三大原则构建研报评估算法 并利用数十万份券商研报优化算法质量 [5] 应用前景 - CUFEL-A代表人工智能在金融领域的首次范式探索 其多智能体系统架构可迁移至其他金融场景 形成"大模型构建-数据产出-轻量化微调-本地部署"的闭环 [5] - 团队正与金融行业头部公司合作 探索智能信贷 合规 供应链金融等领域的应用落地 [5] 研发背景 - 模型由中央财经大学金融学院师生团队自主研发 金融大模型实验室主任王靖一主导项目 [3][5]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
研究背景与动机 - 无人机从遥控平台发展为自主智能体系统,受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变,使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长,操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层(多模态传感器)、认知层(推理与规划)、控制层(飞行执行)、通信层(交互协同)[12] - 相比传统无人机,Agentic UAVs在自主性水平(Level 4-5)、决策架构(RL-based)和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块(NVIDIA Jetson等)支持实时深度学习推理[14] - 多模态传感器融合(RGB/热成像/LiDAR)实现环境联合观测[14] - 视觉-语言模型(VLMs)使无人机能理解执行自然语言指令[14] 主要应用领域 精准农业 - 作物健康监测:通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒:AI驱动目标识别优化滴液大小与路径[17] - 自主播种:地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测:热成像+运动跟踪生成概率热图[21] - 群体协调:V2V通信实现去中心化覆盖与冗余[21] - 野火监测:多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查:SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测:卷积网络检测坑洼裂缝[27] - 自动报告:结构化输出符合工程标准[27] 物流配送 - 最后一公里配送:多模态感知实现GPS拒止环境导航[28] - 自适应投放:实例分割识别合适着陆点[31] - 群体协调:V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命:机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成:多模态感知增加重量与功耗[45] - 实时导航:GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 11:22
核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试中取得69.70%准确率,超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题,实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化(SFT+DPO)显著提升规划器性能,使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - **解耦设计**:分为领域无关规划器(Planner Agent)、智能协调器(Coordinator Agent)和可替换工作节点(Worker Nodes)[11] - **模块化优势**:仅需更换工作节点即可适应新领域,核心规划机制保持不变,迁移成本降低70%以上[12] - **通信机制**:协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - **两阶段训练**: 1 监督微调(SFT)使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化(DPO)提升决策质量,使规划器超越简单模仿[19] - **性能提升**:OWL训练使Qwen2.5-32B模型超越未训练的72B模型(49.09% vs 52.73%)[21] 性能表现 - **GAIA基准**:Workforce框架在validation集pass@1达69.70%,超越OpenAI Deep Research(67.36%)和所有开源系统[18] - **多维度优势**:Level 1任务准确率84.91%(Claude-3.7-Sonnet),Level 3达42.31%[20] - **自我纠错**:任务失败时触发动态调整机制,重新规划后性能持续提升[25] 应用挑战 - **现实问题**:需处理信息源差异(如不同答案)、时效性(动态变化)、语言歧义性(模糊查询)及网络限制[23][26] - **稳定性**:在多能力任务中保持性能稳定,单智能体方法性能下降超30%[25] 行业影响 - **开源生态**:代码已获GitHub 17k star,加速行业应用落地[2][4] - **通用AI路径**:模块化设计为通用AI助手提供可扩展基础,降低部署门槛70%[25][27]
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 19:51
多智能体系统核心观点 - 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩,子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出,Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题,token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍,需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性,AI Agent能根据进展灵活调整方向,传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察,子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后,多智能体系统成为扩展能力的必由之路,智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率,Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式,首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同,采用多步骤动态搜索:持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory,创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究,必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告,确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款,编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统,利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因,监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本,避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体,子智能体并行使用3个或以上工具,将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权,明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量,将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要,为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略:鼓励智能体先从简短宽泛查询开始,评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径,多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性,而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分(事实准确性、引用准确性等),与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况,如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括:跨专业领域开发软件系统(10%)、专业技术内容开发优化(8%)、业务增长与营收战略制定(8%)等 [21] - 用户反馈帮助找到未曾考虑的商业机会,解决复杂医疗保健方案,节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]