智能体系统

搜索文档
OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
第一财经· 2025-07-18 13:13
"现在ChatGPT可以思考和行动,能主动从技能工具箱中选择工具,完成一些任务。"OpenAI介绍,这些任务包括"查看我的日历并根据近期新闻介绍即将 举行的会议""分析三个竞争对手并创建幻灯片"等。此外,用户还可以执行一些重复任务,例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子 表格、重新安排会议。 在评估模型编辑真实场景电子表格能力的测试中,ChatGPT Agent的最高得分45.5%远低于人类得分71.3%。 7月,OpenAI尚未按照此前计划发布GPT-5,智能体方面的更新先行面世了。 北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算 机能帮助用户完成复杂的多步骤任务。 不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是 远低于人类得分71.3%。 据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、 ...
OpenAI发布ChatGPT Agent
第一财经· 2025-07-18 08:10
OpenAI发布ChatGPT Agent - OpenAI发布ChatGPT Agent 其重要功能模块是多工具集成能力 [1] - ChatGPT Agent将Operator的网站交互能力 Deep Research的信息整合能力以及ChatGPT的深度对话能力融合在一起 形成统一的智能体系统 [1]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 12:23
核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究,MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略,揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础,去中心化结构效率最高,且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**:区分规划者与执行者角色,实现任务分解与动态调度 [13] - **智能体图**:用三元组(agent1,关系,agent2)构建结构化关系网络,模拟真实团队架构 [14] - **认知模块**:提供个性化记忆与推理方式,支持策略动态调整 [15] 评测场景 - 覆盖6类场景:科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务,模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**:按场景定制化评价最终产出质量,如编程任务代码完成度 [27] - **协作总分(CS)**:综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**:动态检测关键节点达成情况,识别核心贡献智能体 [27] 关键结论 - **个体能力优先**:Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21,显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**:图结构去中心化协作效率最高,树型层级结构因沟通损耗表现最差 [38] - **规模效应**:智能体数量超过3个时出现"林格曼效应",KPI随规模扩大下降 [40][41] - **社会行为涌现**:狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**:通过复盘动态调整策略,优于小组讨论等传统方法 [38] - **动态关系网络**:支持协作/监督等多元关系,比固定指令更接近真实团队 [14] - **多模态评估**:同时量化任务结果(硬指标)与协作过程(软实力) [27][28]
探索金融多领域应用 中财融通大模型及上市公司研报智能体发布
搜狐财经· 2025-07-06 22:55
产品发布 - 中财融通大模型CUFEL及上市公司研报智能体CUFEL-A于7月5日在中央财经大学主办的2025中关村论坛系列活动-全球财经论坛上正式发布 [1] 技术特点 - CUFEL并非单一模型 而是一簇模型或高效微调流程 通过创新组合微调流程 在保持基础模型通用能力的同时增强垂直领域表现 特别适用于智能体构建与本地部署 [3] - CUFEL-A智能体采用"资料汇总 规划 架构与反思 撰写"四步流程 可独立产出A股上市公司原创深度研究报告 [5] - 研究团队基于"生成式 端到端 多智能体系统整体强化学习"三大原则构建研报评估算法 并利用数十万份券商研报优化算法质量 [5] 应用前景 - CUFEL-A代表人工智能在金融领域的首次范式探索 其多智能体系统架构可迁移至其他金融场景 形成"大模型构建-数据产出-轻量化微调-本地部署"的闭环 [5] - 团队正与金融行业头部公司合作 探索智能信贷 合规 供应链金融等领域的应用落地 [5] 研发背景 - 模型由中央财经大学金融学院师生团队自主研发 金融大模型实验室主任王靖一主导项目 [3][5]
ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
机器之心· 2025-07-05 10:46
多智能体系统(MAS)发展现状 - OpenAI将"组织级智能(Organizational AI)"设定为通向AGI的第五阶段,多智能体系统是实现该目标的重要探索方向[1] - 现有MAS方法(ChatDev/DyLAN/AFlow等)存在三大根本问题:结构依赖人工调试、多轮LLM调用成本高昂、泛化性低[5][7] - 当前处理大规模并发请求的类ChatGPT系统若采用传统MAS范式,可扩展性与鲁棒性将无法满足需求[5] MAS-GPT技术突破 - 提出生成式MAS设计范式,通过一句Query即可自动生成可执行的多智能体系统,构建过程"像与ChatGPT聊天一样简单"[2][4][9] - 将MAS设计转化为语言生成任务,输出为Python代码实现的完整系统,实现"模型写MAS"而非人工编写[9] - 基于11K高质量数据样本进行监督微调(SFT),训练出MAS-GPT模型[10] 性能优势 - 在8个基准任务×5种主流模型的对比中,平均准确率较最强基线提升3.89%[16][17] - 推理成本仅为竞品的0.5倍,在GPQA/SciBench等未见任务上保持稳健表现[17][18] - 与OpenAI o1/DeepSeek-R1等强推理模型结合时,在AIME-2024数学挑战中分别提升13.3%和10.0%[22] 技术特性 - 具备极强兼容性,生成的MAS适配任何LLM驱动均能带来性能提升[20] - 可自动生成新颖MAS结构,为未见任务设计合理分工协作方案[24][29] - 为每个MAS附加推理说明,解释设计逻辑[29] 行业影响与发展 - 开创"为每个Query自动生成MAS"的新范式,理论上可整合领域内所有多智能体系统[25] - 成立MASWorks开源社区,连接全球研究者推动MAS领域发展,将在ICML 2025举办MAS-2025研讨会[28][30][31] - 随着基座模型能力提升和数据丰富,未来可能实现为每个问题量身定制智能系统的愿景[26][27]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 20:17
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 自主导航无人机的基础 | UAV Type | Perception | Control Archi- | Decision System | Autonomy | Task | | Communication | | --- | --- | --- | --- | --- | --- | --- | --- | | | Modality | tecture | | Level | Adapt- | | Interface | | | | | | | ability | | | | Traditional | Monocular or | Rule-based | Deterministic. | Level 1-2 | Static | | Line-of-sight, | | UAVs | stereo RGB | flight con- | s ...
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 11:22
核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试中取得69.70%准确率,超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题,实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化(SFT+DPO)显著提升规划器性能,使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - **解耦设计**:分为领域无关规划器(Planner Agent)、智能协调器(Coordinator Agent)和可替换工作节点(Worker Nodes)[11] - **模块化优势**:仅需更换工作节点即可适应新领域,核心规划机制保持不变,迁移成本降低70%以上[12] - **通信机制**:协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - **两阶段训练**: 1 监督微调(SFT)使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化(DPO)提升决策质量,使规划器超越简单模仿[19] - **性能提升**:OWL训练使Qwen2.5-32B模型超越未训练的72B模型(49.09% vs 52.73%)[21] 性能表现 - **GAIA基准**:Workforce框架在validation集pass@1达69.70%,超越OpenAI Deep Research(67.36%)和所有开源系统[18] - **多维度优势**:Level 1任务准确率84.91%(Claude-3.7-Sonnet),Level 3达42.31%[20] - **自我纠错**:任务失败时触发动态调整机制,重新规划后性能持续提升[25] 应用挑战 - **现实问题**:需处理信息源差异(如不同答案)、时效性(动态变化)、语言歧义性(模糊查询)及网络限制[23][26] - **稳定性**:在多能力任务中保持性能稳定,单智能体方法性能下降超30%[25] 行业影响 - **开源生态**:代码已获GitHub 17k star,加速行业应用落地[2][4] - **通用AI路径**:模块化设计为通用AI助手提供可扩展基础,降低部署门槛70%[25][27]
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 19:51
多智能体系统核心观点 - 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩,子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出,Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题,token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍,需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性,AI Agent能根据进展灵活调整方向,传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察,子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后,多智能体系统成为扩展能力的必由之路,智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率,Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式,首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同,采用多步骤动态搜索:持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory,创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究,必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告,确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款,编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统,利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因,监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本,避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体,子智能体并行使用3个或以上工具,将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权,明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量,将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要,为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略:鼓励智能体先从简短宽泛查询开始,评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径,多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性,而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分(事实准确性、引用准确性等),与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况,如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括:跨专业领域开发软件系统(10%)、专业技术内容开发优化(8%)、业务增长与营收战略制定(8%)等 [21] - 用户反馈帮助找到未曾考虑的商业机会,解决复杂医疗保健方案,节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 16:02
多智能体系统概述 - 多智能体系统由多个大型语言模型(LLM)智能体协同工作组成 主智能体(协调器)负责规划任务并委托给并行操作的子智能体 具体步骤包括任务分解、子智能体执行和结果合并[4][6] - 该系统特别适合开放式研究任务 因其具备动态调整和并行探索能力 在广度优先查询中性能比单智能体提升90.2%[14][27] - 核心架构采用协调者-工作者模式 主智能体(LeadResearcher)负责策略制定和结果综合 子智能体(Subagents)并行执行具体任务[29][30] 多智能体系统优势 - 并行操作优势显著:子智能体通过独立上下文窗口并行运行 主智能体可同时启动3-5个子智能体 使复杂查询研究时间缩短90%[16][17] - 信息处理效率提升:通过关注点分离和并行推理 系统能更彻底地调查问题 在识别S&P 500公司董事会成员等任务中表现优于单智能体[27] - 动态适应能力强:研究过程中可根据新发现调整方法 支持先广后深的搜索策略 模仿人类专家研究模式[33][34] 多智能体系统挑战 - 架构脆弱性问题:子智能体可能误解任务导致结果不一致 早期系统出现过为简单查询生成50个子代理等协调问题[10] - 上下文共享难题:子智能体间缺乏充分上下文共享 可能基于冲突假设行动 如分别构建不同风格的《飞扬的小鸟》游戏元素[19][20] - 资源消耗巨大:多智能体系统token消耗达聊天交互的15倍 仅适用于高价值任务 编码等依赖性强任务目前不适用[17][28] 解决方案与优化措施 - 严格领域限定:仅应用于适合并行化的研究任务 排除编码等依赖性强领域 通过专用提示工程明确子智能体职责[8][12] - 高级上下文管理:采用文件系统直接存储输出 建立记忆机制保存关键信息 在上下文接近限制时生成新智能体交接[16][30] - 精细化提示工程:包含7项核心原则 如教导协调器明确委派任务 根据查询复杂度动态调整工作量 优先使用专用工具等[33] 行业应用现状 - 主要应用场景包括:专业软件开发(10%)、技术内容优化(8%)、商业策略制定(8%)、学术研究辅助(7%)和信息验证(5%)[38] - 实际效果显著:用户反馈显示能发现新商业机会 解决技术难题 在医疗保健等领域节省数天研究时间[38] - 评估方法创新:采用LLM作为裁判评估事实准确性等维度 结合人工测试发现边缘案例 需同时关注结果正确性和过程合理性[36]