智能体系统 - 财报，业绩电话会，研报，新闻

智能体系统

搜索文档

OpenAI发布ChatGPT Agent：部分能力超越人类，但做电子表格仍不如人类

第一财经· 2025-07-18 13:13

"现在ChatGPT可以思考和行动，能主动从技能工具箱中选择工具，完成一些任务。"OpenAI介绍，这些任务包括"查看我的日历并根据近期新闻介绍即将举行的会议""分析三个竞争对手并创建幻灯片"等。此外，用户还可以执行一些重复任务，例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子表格、重新安排会议。在评估模型编辑真实场景电子表格能力的测试中，ChatGPT Agent的最高得分45.5%远低于人类得分71.3%。 7月，OpenAI尚未按照此前计划发布GPT-5，智能体方面的更新先行面世了。北京时间7月18日凌晨，OpenAI直播发布了ChatGPT Agent，这一智能体融合了Operator智能体网页交互能力以及Deep Research功能，使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。不过，虽然ChatGPT Agent在SpreadsheetBench测试（评估模型编辑真实场景电子表格的能力）中，表现超过OpenAI的其他模型，但其最高得分45.5%还是远低于人类得分71.3%。据介绍，ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、 ...

智能体系统

Artificial Intelligence

Artificial Intelligence

OpenAI发布ChatGPT Agent

第一财经· 2025-07-18 08:10

OpenAI发布ChatGPT Agent - OpenAI发布ChatGPT Agent 其重要功能模块是多工具集成能力 [1] - ChatGPT Agent将Operator的网站交互能力 Deep Research的信息整合能力以及ChatGPT的深度对话能力融合在一起形成统一的智能体系统 [1]

「0天复刻Manus」的背后，这名95后技术人坚信：“通用Agent一定存在，Agent也有Scaling Law”| 万有引力

AI科技大本营· 2025-07-11 17:10

AI Agent技术发展 - Manus项目引爆AI Agent热潮，展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议，部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一，是最强开源Agent之一，十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架，已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架，而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈，GitHub上关闭200+ Issue，微信群反馈达上千条[9] - 社区开发者积极贡献PR，改进UI/UX和交互体验[10] - OWL进行重要重构，平衡性能与成本控制，GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能，支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server，构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中，70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互，开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程，提供统一接口调用外部工具[30][32] - Google推出A2A协议，侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发，而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查，修改量约20%[44] - AI生成代码可能仅提供局部最优解，需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]

给你一群顶尖AI，如何组队才能发挥最大战力？UIUC用一个新的多智能体协作基准寻找答案

机器之心· 2025-07-09 12:23

核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究，MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略，揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础，去中心化结构效率最高，且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**：区分规划者与执行者角色，实现任务分解与动态调度 [13] - **智能体图**：用三元组(agent1,关系,agent2)构建结构化关系网络，模拟真实团队架构 [14] - **认知模块**：提供个性化记忆与推理方式，支持策略动态调整 [15] 评测场景 - 覆盖6类场景：科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务，模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**：按场景定制化评价最终产出质量，如编程任务代码完成度 [27] - **协作总分(CS)**：综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**：动态检测关键节点达成情况，识别核心贡献智能体 [27] 关键结论 - **个体能力优先**：Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21，显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**：图结构去中心化协作效率最高，树型层级结构因沟通损耗表现最差 [38] - **规模效应**：智能体数量超过3个时出现"林格曼效应"，KPI随规模扩大下降 [40][41] - **社会行为涌现**：狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**：通过复盘动态调整策略，优于小组讨论等传统方法 [38] - **动态关系网络**：支持协作/监督等多元关系，比固定指令更接近真实团队 [14] - **多模态评估**：同时量化任务结果(硬指标)与协作过程(软实力) [27][28]

Artificial Intelligence

Artificial Intelligence

OpenManus(RL)

探索金融多领域应用中财融通大模型及上市公司研报智能体发布

搜狐财经· 2025-07-06 22:55

产品发布 - 中财融通大模型CUFEL及上市公司研报智能体CUFEL-A于7月5日在中央财经大学主办的2025中关村论坛系列活动-全球财经论坛上正式发布 [1] 技术特点 - CUFEL并非单一模型而是一簇模型或高效微调流程通过创新组合微调流程在保持基础模型通用能力的同时增强垂直领域表现特别适用于智能体构建与本地部署 [3] - CUFEL-A智能体采用"资料汇总规划架构与反思撰写"四步流程可独立产出A股上市公司原创深度研究报告 [5] - 研究团队基于"生成式端到端多智能体系统整体强化学习"三大原则构建研报评估算法并利用数十万份券商研报优化算法质量 [5] 应用前景 - CUFEL-A代表人工智能在金融领域的首次范式探索其多智能体系统架构可迁移至其他金融场景形成"大模型构建-数据产出-轻量化微调-本地部署"的闭环 [5] - 团队正与金融行业头部公司合作探索智能信贷合规供应链金融等领域的应用落地 [5] 研发背景 - 模型由中央财经大学金融学院师生团队自主研发金融大模型实验室主任王靖一主导项目 [3][5]

ICML 2025 | 多智能体的ChatGPT时刻？上交MAS-GPT实现工作流一键生成

机器之心· 2025-07-05 10:46

多智能体系统(MAS)发展现状 - OpenAI将"组织级智能(Organizational AI)"设定为通向AGI的第五阶段，多智能体系统是实现该目标的重要探索方向[1] - 现有MAS方法(ChatDev/DyLAN/AFlow等)存在三大根本问题：结构依赖人工调试、多轮LLM调用成本高昂、泛化性低[5][7] - 当前处理大规模并发请求的类ChatGPT系统若采用传统MAS范式，可扩展性与鲁棒性将无法满足需求[5] MAS-GPT技术突破 - 提出生成式MAS设计范式，通过一句Query即可自动生成可执行的多智能体系统，构建过程"像与ChatGPT聊天一样简单"[2][4][9] - 将MAS设计转化为语言生成任务，输出为Python代码实现的完整系统，实现"模型写MAS"而非人工编写[9] - 基于11K高质量数据样本进行监督微调(SFT)，训练出MAS-GPT模型[10] 性能优势 - 在8个基准任务×5种主流模型的对比中，平均准确率较最强基线提升3.89%[16][17] - 推理成本仅为竞品的0.5倍，在GPQA/SciBench等未见任务上保持稳健表现[17][18] - 与OpenAI o1/DeepSeek-R1等强推理模型结合时，在AIME-2024数学挑战中分别提升13.3%和10.0%[22] 技术特性 - 具备极强兼容性，生成的MAS适配任何LLM驱动均能带来性能提升[20] - 可自动生成新颖MAS结构，为未见任务设计合理分工协作方案[24][29] - 为每个MAS附加推理说明，解释设计逻辑[29] 行业影响与发展 - 开创"为每个Query自动生成MAS"的新范式，理论上可整合领域内所有多智能体系统[25] - 成立MASWorks开源社区，连接全球研究者推动MAS领域发展，将在ICML 2025举办MAS-2025研讨会[28][30][31] - 随着基座模型能力提升和数据丰富，未来可能实现为每个问题量身定制智能系统的愿景[26][27]

当无人机遇到AI智能体：多领域自主空中智能和无人机智能体综述

具身智能之心· 2025-06-30 20:17

作者丨视觉语言导航编辑丨视觉语言导航点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。主要贡献自主导航无人机的基础 | UAV Type | Perception | Control Archi- | Decision System | Autonomy | Task | | Communication | | --- | --- | --- | --- | --- | --- | --- | --- | | | Modality | tecture | | Level | Adapt- | | Interface | | | | | | | ability | | | | Traditional | Monocular or | Rule-based | Deterministic. | Level 1-2 | Static | | Line-of-sight, | | UAVs | stereo RGB | flight con- | s ...

突破多智能体系统边界，开源方案OWL超越OpenAI Deep Research，获17k star

机器之心· 2025-06-17 11:22

核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法，在GAIA基准测试中取得69.70%准确率，超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题，实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化（SFT+DPO）显著提升规划器性能，使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - **解耦设计**：分为领域无关规划器（Planner Agent）、智能协调器（Coordinator Agent）和可替换工作节点（Worker Nodes）[11] - **模块化优势**：仅需更换工作节点即可适应新领域，核心规划机制保持不变，迁移成本降低70%以上[12] - **通信机制**：协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - **两阶段训练**： 1 监督微调（SFT）使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化（DPO）提升决策质量，使规划器超越简单模仿[19] - **性能提升**：OWL训练使Qwen2.5-32B模型超越未训练的72B模型（49.09% vs 52.73%）[21] 性能表现 - **GAIA基准**：Workforce框架在validation集pass@1达69.70%，超越OpenAI Deep Research（67.36%）和所有开源系统[18] - **多维度优势**：Level 1任务准确率84.91%（Claude-3.7-Sonnet），Level 3达42.31%[20] - **自我纠错**：任务失败时触发动态调整机制，重新规划后性能持续提升[25] 应用挑战 - **现实问题**：需处理信息源差异（如不同答案）、时效性（动态变化）、语言歧义性（模糊查询）及网络限制[23][26] - **稳定性**：在多能力任务中保持性能稳定，单智能体方法性能下降超30%[25] 行业影响 - **开源生态**：代码已获GitHub 17k star，加速行业应用落地[2][4] - **通用AI路径**：模块化设计为通用AI助手提供可扩展基础，降低部署门槛70%[25][27]

多智能体系统

通用人工智能

Artificial Intelligence

Artificial Intelligence

Workforce框架

OWL训练方法

Anthropic 详述如何构建多智能体研究系统：最适合 3 类场景

投资实习所· 2025-06-16 19:51

多智能体系统核心观点 - 多智能体系统最适合三类场景：高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩，子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出，Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题，token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍，需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性，AI Agent能根据进展灵活调整方向，传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察，子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后，多智能体系统成为扩展能力的必由之路，智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率，Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式，首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同，采用多步骤动态搜索：持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory，创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究，必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告，确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款，编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统，利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因，监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本，避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体，子智能体并行使用3个或以上工具，将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权，明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量，将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要，为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略：鼓励智能体先从简短宽泛查询开始，评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径，多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性，而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分（事实准确性、引用准确性等），与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况，如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括：跨专业领域开发软件系统（10%）、专业技术内容开发优化（8%）、业务增长与营收战略制定（8%）等 [21] - 用户反馈帮助找到未曾考虑的商业机会，解决复杂医疗保健方案，节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]

多智能体系统

AI Agent

Artificial Intelligence

Artificial Intelligence

Claude

Claude Opus 4

Claude Sonnet 4

近期必读！Devin VS Anthropic 的多智能体构建方法论

歸藏的AI工具箱· 2025-06-15 16:02

多智能体系统概述 - 多智能体系统由多个大型语言模型(LLM)智能体协同工作组成主智能体(协调器)负责规划任务并委托给并行操作的子智能体具体步骤包括任务分解、子智能体执行和结果合并[4][6] - 该系统特别适合开放式研究任务因其具备动态调整和并行探索能力在广度优先查询中性能比单智能体提升90.2%[14][27] - 核心架构采用协调者-工作者模式主智能体(LeadResearcher)负责策略制定和结果综合子智能体(Subagents)并行执行具体任务[29][30] 多智能体系统优势 - 并行操作优势显著：子智能体通过独立上下文窗口并行运行主智能体可同时启动3-5个子智能体使复杂查询研究时间缩短90%[16][17] - 信息处理效率提升：通过关注点分离和并行推理系统能更彻底地调查问题在识别S&P 500公司董事会成员等任务中表现优于单智能体[27] - 动态适应能力强：研究过程中可根据新发现调整方法支持先广后深的搜索策略模仿人类专家研究模式[33][34] 多智能体系统挑战 - 架构脆弱性问题：子智能体可能误解任务导致结果不一致早期系统出现过为简单查询生成50个子代理等协调问题[10] - 上下文共享难题：子智能体间缺乏充分上下文共享可能基于冲突假设行动如分别构建不同风格的《飞扬的小鸟》游戏元素[19][20] - 资源消耗巨大：多智能体系统token消耗达聊天交互的15倍仅适用于高价值任务编码等依赖性强任务目前不适用[17][28] 解决方案与优化措施 - 严格领域限定：仅应用于适合并行化的研究任务排除编码等依赖性强领域通过专用提示工程明确子智能体职责[8][12] - 高级上下文管理：采用文件系统直接存储输出建立记忆机制保存关键信息在上下文接近限制时生成新智能体交接[16][30] - 精细化提示工程：包含7项核心原则如教导协调器明确委派任务根据查询复杂度动态调整工作量优先使用专用工具等[33] 行业应用现状 - 主要应用场景包括：专业软件开发(10%)、技术内容优化(8%)、商业策略制定(8%)、学术研究辅助(7%)和信息验证(5%)[38] - 实际效果显著：用户反馈显示能发现新商业机会解决技术难题在医疗保健等领域节省数天研究时间[38] - 评估方法创新：采用LLM作为裁判评估事实准确性等维度结合人工测试发现边缘案例需同时关注结果正确性和过程合理性[36]

多智能体系统

上下文工程

Artificial Intelligence

Claude Code

多智能体系统

上下文工程

Artificial Intelligence

Claude Code

Previous Next