多智能体系统

搜索文档
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
量子位· 2025-09-11 18:19
产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统 采用团队作战模式 包括一个Planner负责任务分解和进度管理 多个专业Executor并行处理子任务 通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练 具备更强的角色扮演和协同推理能力 能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成 目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch(10.6K tokens)的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分 超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分) [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分 为同规模开源模型中最高 超过WebSailor-72B(12.0分) [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构 协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估 构建任务树分解复杂问题 并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据 而非完整上下文 实现可扩展通信和并行执行 [11] - 系统包含专业化Executor:Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调 拒绝采样微调(RFT)和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群 依托1000+ NPU组成的大规模计算集群 通过华为高速缓存一致性系统(HCCS)互联 [17] - 开发专门强化学习框架 包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感 但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B(25.5分) [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分(18.3→27.3) 而升级Planner仅提升6.3分(18.3→24.6) [25] - 在长文本写作任务中 升级Writer带来的提升(5.51→5.80)远超升级Planner(5.51→5.56) [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒 具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研 科学文献综述 专业数据分析等专业领域发挥巨大作用 [27]
A2A、MCP、Gemini……谷歌技术专家手把手教你搭建 AI Agent
Founder Park· 2025-09-02 18:21
活动主题 - Google Cloud AI专家分享AI智能体构建技巧 重点关注ADK A2A MCP和Agent Engine技术框架的应用[2] - 探讨如何利用Google最新AI技术打造协作性强 高效 可扩展的多智能体系统[2][6] - 探索智能体开发未来趋势 分析智能体对人机交互范式的重塑潜力[2][6] 目标受众 - AI初创企业及出海企业的业务负责人与技术负责人[6] - AI产品经理 解决方案架构师及AI工程师群体[6] - 开发者群体 活动需经审核且名额有限[3][6] 行业动态参考 - Intercom采用Founder Mode实现300%增长 体现按结果付费模式在AI转型中的成功应用[8] - 红杉美国重点关注五大AI赛道 反映资本对特定AI领域的战略布局[8] - a16z全球AI产品Top100显示DeepSeek增长放缓 中国开发者出海全球化成为新趋势[8]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 10:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]
如何借助 ADK、A2A、MCP 和 Agent Engine 构建智能体?
Founder Park· 2025-08-27 19:41
活动概述 - Founder Park联合Google Cloud举办线上分享活动 特邀AI专家史洁探讨AI智能体开发技术[2][3] - 活动时间为9月4日20-21点 采用审核制报名方式 面向特定专业受众群体[4][8] 技术框架 - 重点介绍ADK A2A MCP和Agent Engine四大技术框架在构建AI智能体中的应用方案[3][8] - 探讨如何利用Google最新AI技术构建具备协作性 高效性和可扩展性的多智能体系统[3][8] 行业影响 - 深入分析智能体开发未来趋势 预判智能体技术将重塑人机交互范式[3][8] - 活动面向AI初创企业 出海企业技术负责人 AI产品经理及工程师等专业群体[8] 延伸资源 - 公众号提供AI创业相关延伸阅读 包括增长策略 平台红利把握及产品评估等主题[9]
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 12:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
36氪· 2025-08-12 08:57
技术突破与性能表现 - 在短短两个月内实现AI数学能力从小学数学水平跃升至国际数学奥林匹克竞赛(IMO)金牌水平 [1][4] - 推理时间从0.1分钟(6秒)扩展到100分钟(6000秒),实现10000倍计算扩展 [6][25] - 采用多智能体系统技术,通过多个AI助手分工协作解决复杂问题 [10] - 在GSM8K小学数学基准测试中,顶级模型准确率已达95%(Claude 3),但该数据集已饱和 [13] - 开源模型在各类数学测试中表现差异显著:Mathstral 7B在AIME 2024获得2/30分,而部分模型得分为0/30 [14] 方法论创新 - 使用通用强化学习技术而非形式化验证工具处理难以验证的任务 [6] - 通过扩展测试时间计算和并行计算实现深入推理 [6][25][26] - 设计特殊奖励函数使AI能处理物理奥林匹克等难以验证的难题 [26] - 每份证明由三名IMO奖牌获得者独立评分并达成一致性意见 [1] - 选择发布原始输出保持透明度,尽管证明可读性不高类似"外星语言" [1] 系统特性与可靠性 - 新模型展现出自我意识能力,在无法解答IMO第六题时主动承认局限而非输出错误答案 [8][18][19] - 显著减少推理模型"幻觉"问题,倾向于在缺乏有效证明时说"不确定" [19][20] - 该技术被视作通往人工超级智能(ASI)道路上的重要里程碑 [6] - 使用与其他项目相同的通用基础设施,未专门为IMO定制系统 [26][27] 团队与开发过程 - 核心团队仅由三名研究人员组成(Alexander Wei、Noam Brown与Sheryl Hsu) [1][4][8] - 在最后两个月冲刺完成工作,期间有研究员曾以2:1赔率打赌模型不会获胜 [1][8] - 计划将该方法整合进更多模型,全面提升推理能力并构建更强大的Agent系统 [27] 行业意义与应用前景 - 突破表明小团队也能创造重大成果,为AI开发者提供合作与创意范例 [8][29] - 通用技术可应用于数学、科学等多个领域解决未解难题 [6][26][29] - 从竞赛数学到真正数学研究存在巨大差距:IMO题需1.5小时,而千禧难题需要数千小时思考时间 [23] - 未来可能实现AI自主提出新问题,而不仅仅是解决问题 [28]
GPT5令人失望的背后:OpenAI如何做商业战略调整 | Jinqiu Select
锦秋集· 2025-08-08 23:38
GPT-5核心技术升级 - 实现"推理集成"能力,将快速响应与深度推理统一为一站式解决方案,无需用户切换模型[8] - 强化后训练微调和反馈优化,针对消费级和企业级使用进行细致打磨,提升模型实用性和可靠性[8][9] - 代码能力实现巨大飞跃,为软件开发设立全新可靠性和实用性标准,尤其在代码生成和调试方面表现突出[10][11] 商业与基础设施战略 - ChatGPT每周活跃用户高达7亿,85%用户位于美国以外,主要市场包括印度、印尼、巴西等新兴国家[12] - 企业客户达500万付费席位,覆盖金融、生物科技等多个行业,形成个人订阅+企业服务+API平台三位一体商业模式[13] - 近期完成400亿美元融资,用于大规模算力部署,与甲骨文、微软等建立超大规模云基础设施合作[15][16][17] 产品体验设计理念 - 取消模型选择功能,拒绝"跑分崇拜",强调真实场景下的实用性而非基准测试高分[21][22] - 针对特定高价值任务进行定向优化,如让GPT-5参与顶尖编码竞赛并达到世界冠军水平[22][23] 多Agent系统发展 - 探索"组织型AI"愿景,通过多个专门化代理协作完成复杂任务,类似人类团队分工[24][25] - 实际案例显示Agent可同时承担编码、设计、QA等多重角色,实现闭环自我改进[26][27] - 企业需调整工作流程才能充分发挥Agent潜力,局部使用仅能提升效率10-15%[28][29] 技术发展脉络 - GPT-1到GPT-3聚焦基础语言能力扩展,GPT-3.5到GPT-4引入对齐技术和推理机制[30][33] - GPT-4.5到GPT-5构建综合智能体系,形成基础大模型+推理层+代理编排层三层架构[31][32] - ChatGPT产品验证了通用对话AI的市场需求,成为全球数亿人日常工具[33]
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
应用趋势 - 通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富[1][13] - 以视觉操作为核心的Computer Use Agent(CUA)推向市场,正与文本类深度研究Agent融合[1][14] - 垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛[1][16][17] - 头部编程应用收入增长速度创纪录,不同应用达到5亿美元年收入所需时间缩短至2年[17][18] - 模型上下文协议(MCP)受关注但尚未规模化落地,可为大模型Agent提供技术支撑[1][19] 模型趋势 - 推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异(如代码竞赛准确率提升+129%)[21][22] - 大模型工具使用能力增强,端到端融合视觉与文本,多模态推理能力提升[1][25][26] - 图像生成控制能力、审美等全面增强,普通用户可仅通过自然语言进行复杂图像编辑[28] - 视频生成模型整合原生配音,可控性和物理规律协调性增强(如Veo 3支持音画同步生成)[29] - 小模型加速普及(如Qwen3-0.6B/1.7B/4B),降低部署门槛[30] 技术趋势 - 资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练[1][33] - 多智能体系统成前沿范式,在线学习有望成下一代学习方式[1] - Transformer架构及混合架构快速迭代优化,代码验证成AI编程自动化提升的前沿[1] 行业趋势 - xAI的Grok 4跻身全球第一梯队,证明大模型无护城河[2] - 算力成关键竞争要素,头部玩家计算集群规模达数十万卡且持续扩张[2] - OpenAI领先优势弱化,谷歌和xAI迎头赶上,中美通用大模型差距缩小[2] - 中国在多模态领域表现突出,AI编程成必争之地,国内外头部玩家密集布局[2][17]
因赛集团:正争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴
新浪财经· 2025-07-30 17:28
公司战略合作 - 公司正在争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴并陪伴其全球化布局 [1] - 公司将通过自身及各营销细分领域的优秀子公司为该科技大厂提供全链路营销服务 [1] 技术研发进展 - 公司拟在Q3研发完成多智能体系统(MAS)基座并上线 [1] - 系统将整合文案、图片、视频、语音、数字人等多样化AI智能体 [1] - 公司正在研发支撑AI智能体高效协作的交互机制与动态工作流中台 [1]