多智能体系统
搜索文档
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 12:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
36氪· 2025-08-12 08:57
技术突破与性能表现 - 在短短两个月内实现AI数学能力从小学数学水平跃升至国际数学奥林匹克竞赛(IMO)金牌水平 [1][4] - 推理时间从0.1分钟(6秒)扩展到100分钟(6000秒),实现10000倍计算扩展 [6][25] - 采用多智能体系统技术,通过多个AI助手分工协作解决复杂问题 [10] - 在GSM8K小学数学基准测试中,顶级模型准确率已达95%(Claude 3),但该数据集已饱和 [13] - 开源模型在各类数学测试中表现差异显著:Mathstral 7B在AIME 2024获得2/30分,而部分模型得分为0/30 [14] 方法论创新 - 使用通用强化学习技术而非形式化验证工具处理难以验证的任务 [6] - 通过扩展测试时间计算和并行计算实现深入推理 [6][25][26] - 设计特殊奖励函数使AI能处理物理奥林匹克等难以验证的难题 [26] - 每份证明由三名IMO奖牌获得者独立评分并达成一致性意见 [1] - 选择发布原始输出保持透明度,尽管证明可读性不高类似"外星语言" [1] 系统特性与可靠性 - 新模型展现出自我意识能力,在无法解答IMO第六题时主动承认局限而非输出错误答案 [8][18][19] - 显著减少推理模型"幻觉"问题,倾向于在缺乏有效证明时说"不确定" [19][20] - 该技术被视作通往人工超级智能(ASI)道路上的重要里程碑 [6] - 使用与其他项目相同的通用基础设施,未专门为IMO定制系统 [26][27] 团队与开发过程 - 核心团队仅由三名研究人员组成(Alexander Wei、Noam Brown与Sheryl Hsu) [1][4][8] - 在最后两个月冲刺完成工作,期间有研究员曾以2:1赔率打赌模型不会获胜 [1][8] - 计划将该方法整合进更多模型,全面提升推理能力并构建更强大的Agent系统 [27] 行业意义与应用前景 - 突破表明小团队也能创造重大成果,为AI开发者提供合作与创意范例 [8][29] - 通用技术可应用于数学、科学等多个领域解决未解难题 [6][26][29] - 从竞赛数学到真正数学研究存在巨大差距:IMO题需1.5小时,而千禧难题需要数千小时思考时间 [23] - 未来可能实现AI自主提出新问题,而不仅仅是解决问题 [28]
GPT5令人失望的背后:OpenAI如何做商业战略调整 | Jinqiu Select
锦秋集· 2025-08-08 23:38
GPT-5核心技术升级 - 实现"推理集成"能力,将快速响应与深度推理统一为一站式解决方案,无需用户切换模型[8] - 强化后训练微调和反馈优化,针对消费级和企业级使用进行细致打磨,提升模型实用性和可靠性[8][9] - 代码能力实现巨大飞跃,为软件开发设立全新可靠性和实用性标准,尤其在代码生成和调试方面表现突出[10][11] 商业与基础设施战略 - ChatGPT每周活跃用户高达7亿,85%用户位于美国以外,主要市场包括印度、印尼、巴西等新兴国家[12] - 企业客户达500万付费席位,覆盖金融、生物科技等多个行业,形成个人订阅+企业服务+API平台三位一体商业模式[13] - 近期完成400亿美元融资,用于大规模算力部署,与甲骨文、微软等建立超大规模云基础设施合作[15][16][17] 产品体验设计理念 - 取消模型选择功能,拒绝"跑分崇拜",强调真实场景下的实用性而非基准测试高分[21][22] - 针对特定高价值任务进行定向优化,如让GPT-5参与顶尖编码竞赛并达到世界冠军水平[22][23] 多Agent系统发展 - 探索"组织型AI"愿景,通过多个专门化代理协作完成复杂任务,类似人类团队分工[24][25] - 实际案例显示Agent可同时承担编码、设计、QA等多重角色,实现闭环自我改进[26][27] - 企业需调整工作流程才能充分发挥Agent潜力,局部使用仅能提升效率10-15%[28][29] 技术发展脉络 - GPT-1到GPT-3聚焦基础语言能力扩展,GPT-3.5到GPT-4引入对齐技术和推理机制[30][33] - GPT-4.5到GPT-5构建综合智能体系,形成基础大模型+推理层+代理编排层三层架构[31][32] - ChatGPT产品验证了通用对话AI的市场需求,成为全球数亿人日常工具[33]
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
应用趋势 - 通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富[1][13] - 以视觉操作为核心的Computer Use Agent(CUA)推向市场,正与文本类深度研究Agent融合[1][14] - 垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛[1][16][17] - 头部编程应用收入增长速度创纪录,不同应用达到5亿美元年收入所需时间缩短至2年[17][18] - 模型上下文协议(MCP)受关注但尚未规模化落地,可为大模型Agent提供技术支撑[1][19] 模型趋势 - 推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异(如代码竞赛准确率提升+129%)[21][22] - 大模型工具使用能力增强,端到端融合视觉与文本,多模态推理能力提升[1][25][26] - 图像生成控制能力、审美等全面增强,普通用户可仅通过自然语言进行复杂图像编辑[28] - 视频生成模型整合原生配音,可控性和物理规律协调性增强(如Veo 3支持音画同步生成)[29] - 小模型加速普及(如Qwen3-0.6B/1.7B/4B),降低部署门槛[30] 技术趋势 - 资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练[1][33] - 多智能体系统成前沿范式,在线学习有望成下一代学习方式[1] - Transformer架构及混合架构快速迭代优化,代码验证成AI编程自动化提升的前沿[1] 行业趋势 - xAI的Grok 4跻身全球第一梯队,证明大模型无护城河[2] - 算力成关键竞争要素,头部玩家计算集群规模达数十万卡且持续扩张[2] - OpenAI领先优势弱化,谷歌和xAI迎头赶上,中美通用大模型差距缩小[2] - 中国在多模态领域表现突出,AI编程成必争之地,国内外头部玩家密集布局[2][17]
因赛集团:正争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴
新浪财经· 2025-07-30 17:28
公司战略合作 - 公司正在争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴并陪伴其全球化布局 [1] - 公司将通过自身及各营销细分领域的优秀子公司为该科技大厂提供全链路营销服务 [1] 技术研发进展 - 公司拟在Q3研发完成多智能体系统(MAS)基座并上线 [1] - 系统将整合文案、图片、视频、语音、数字人等多样化AI智能体 [1] - 公司正在研发支撑AI智能体高效协作的交互机制与动态工作流中台 [1]
AI智能体(八):构建多智能体系统
36氪· 2025-07-28 07:12
AI智能体设计组件 - 智能体包含三个核心组件:模型(Model)为推理和决策提供动力的LLM、工具(Tools)为执行操作的外部函数或API、指令(Instructions)定义行为方式的明确指导方针和防护措施[3] - 模型选择需考虑任务复杂性、延迟和成本,简单任务可用小模型处理,复杂决策需用更强模型[3] - 工具通过API扩展智能体能力,对于无API的遗留系统可依靠计算机使用模型通过UI交互[6] - 高质量指令可减少歧义改进决策,高级模型可根据文档自动生成指令[8] 智能体编排模式 - 多智能体系统可建模成图,智能体为节点,边代表工具调用或交接[11] - 监督者模式采用集中控制,群体模式采用去中心化交互[16] - 监督者模式通过创建监督者智能体来编排多个专业化智能体[17] - 群体协作模式让不同智能体能动态协作和交接任务[46] 智能体实现技术 - 函数调用是LLMs与工具交互的主要方式,工具通过利用底层应用API扩展能力[6] - 监督者模式实现包含定义工具、创建工作智能体、创建监督者智能体等步骤[19][20][21] - 群体协作模式实现包含定义工具函数、创建工作智能体、创建群体智能体等步骤[46][47] - 消息历史管理可控制包含完整历史或仅最终响应[28][30] 智能体运行机制 - 支持同步和异步两种调用模式,实时交互场景适合同步,耗时任务适合异步[51][52] - 输入必须是包含messages键的字典,纯字符串输入会自动转成HumanMessage[54][55] - 输出始终是字典结构,包含messages和可选structured_response字段[57] - 流式输出可实时获取增量更新,支持同步和异步两种方式[58][59] 智能体行业应用 - 行业协议如Anthropic的MCP协议和Google的A2A协议可优化智能体协作[70] - MCP协议通过三层架构破除工具壁垒,A2A协议聚焦智能体间协作[71] - Block公司采用MCP+A2A构建的代理系统使财务流程效率提升300%,错误率下降85%[72] - 微软正将MCP深度集成至Windows系统,预示操作系统将进化为基础代理平台[72]
如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式
机器之心· 2025-07-24 11:19
多智能体系统发展现状 - 大语言模型技术突破推动AI智能体从单点能力向复杂系统协作演进,多智能体系统(MAS)成为学术和产业界新前沿 [1] - Agentic Workflow作为智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的热点方向 [1] - 谷歌、上海AI Lab等团队已推出Meta-GPT、ADAS、AFlow等创新性Agentic Workflow工作,推动任务规划与流程优化自动化 [2] 传统工作流系统的核心瓶颈 - 现有系统采用Python脚本或JSON树等命令式代码输出工作流,导致流程规划与实现深度耦合 [7] - 三大核心瓶颈:结构不透明(流程关系难以把控)、合理性难验证(缺乏静态检查机制)、调试与优化困难(错误需运行时暴露) [10] - 主流系统如ADAS、AFlow的低层次生成方式使结构信息隐含在复杂代码中 [7] MermaidFlow的创新解决方案 - 基于结构化图语言Mermaid,将智能体行为规划显式建模为可视化流程图谱,引入形式化语义确保可验证性 [7][11] - 核心特点:图式结构清晰可见(节点与连边可视化)、流程验证内嵌(依赖闭环/角色一致性等约束)、天然支持演化与调试 [11] - 形成从结构化图到可验证执行的一站式闭环,实现白盒流程管理 [12] 技术优势与实验性能 - 大语言模型对Mermaid语言具备天然生成优势,结合更丝滑高效 [13] - 在GSM8K、MATH等数据集上表现优异,生成可执行且结构合理工作流的成功率超90% [18] - 安全演化策略通过静态验证机制(节点类型匹配/输入输出闭环)过滤劣质图,提升搜索空间质量 [14][16] 行业应用前景 - 结构化可验证工作流为智能体系统提供"看得见、查得清、能进化"的流程底座 [22] - 模块化特性支持节点级操作,显著降低修改不确定性与调试复杂度 [14] - 框架有望推动智能体生态在高效可控协作流程方向的持续进步 [22]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 12:23
核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究,MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略,揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础,去中心化结构效率最高,且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**:区分规划者与执行者角色,实现任务分解与动态调度 [13] - **智能体图**:用三元组(agent1,关系,agent2)构建结构化关系网络,模拟真实团队架构 [14] - **认知模块**:提供个性化记忆与推理方式,支持策略动态调整 [15] 评测场景 - 覆盖6类场景:科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务,模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**:按场景定制化评价最终产出质量,如编程任务代码完成度 [27] - **协作总分(CS)**:综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**:动态检测关键节点达成情况,识别核心贡献智能体 [27] 关键结论 - **个体能力优先**:Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21,显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**:图结构去中心化协作效率最高,树型层级结构因沟通损耗表现最差 [38] - **规模效应**:智能体数量超过3个时出现"林格曼效应",KPI随规模扩大下降 [40][41] - **社会行为涌现**:狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**:通过复盘动态调整策略,优于小组讨论等传统方法 [38] - **动态关系网络**:支持协作/监督等多元关系,比固定指令更接近真实团队 [14] - **多模态评估**:同时量化任务结果(硬指标)与协作过程(软实力) [27][28]