多智能体系统
搜索文档
A2A、MCP、Gemini……谷歌技术专家手把手教你搭建 AI Agent
Founder Park· 2025-09-02 18:21
活动主题 - Google Cloud AI专家分享AI智能体构建技巧 重点关注ADK A2A MCP和Agent Engine技术框架的应用[2] - 探讨如何利用Google最新AI技术打造协作性强 高效 可扩展的多智能体系统[2][6] - 探索智能体开发未来趋势 分析智能体对人机交互范式的重塑潜力[2][6] 目标受众 - AI初创企业及出海企业的业务负责人与技术负责人[6] - AI产品经理 解决方案架构师及AI工程师群体[6] - 开发者群体 活动需经审核且名额有限[3][6] 行业动态参考 - Intercom采用Founder Mode实现300%增长 体现按结果付费模式在AI转型中的成功应用[8] - 红杉美国重点关注五大AI赛道 反映资本对特定AI领域的战略布局[8] - a16z全球AI产品Top100显示DeepSeek增长放缓 中国开发者出海全球化成为新趋势[8]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 10:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]
如何借助 ADK、A2A、MCP 和 Agent Engine 构建智能体?
Founder Park· 2025-08-27 19:41
活动概述 - Founder Park联合Google Cloud举办线上分享活动 特邀AI专家史洁探讨AI智能体开发技术[2][3] - 活动时间为9月4日20-21点 采用审核制报名方式 面向特定专业受众群体[4][8] 技术框架 - 重点介绍ADK A2A MCP和Agent Engine四大技术框架在构建AI智能体中的应用方案[3][8] - 探讨如何利用Google最新AI技术构建具备协作性 高效性和可扩展性的多智能体系统[3][8] 行业影响 - 深入分析智能体开发未来趋势 预判智能体技术将重塑人机交互范式[3][8] - 活动面向AI初创企业 出海企业技术负责人 AI产品经理及工程师等专业群体[8] 延伸资源 - 公众号提供AI创业相关延伸阅读 包括增长策略 平台红利把握及产品评估等主题[9]
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 12:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
36氪· 2025-08-12 08:57
技术突破与性能表现 - 在短短两个月内实现AI数学能力从小学数学水平跃升至国际数学奥林匹克竞赛(IMO)金牌水平 [1][4] - 推理时间从0.1分钟(6秒)扩展到100分钟(6000秒),实现10000倍计算扩展 [6][25] - 采用多智能体系统技术,通过多个AI助手分工协作解决复杂问题 [10] - 在GSM8K小学数学基准测试中,顶级模型准确率已达95%(Claude 3),但该数据集已饱和 [13] - 开源模型在各类数学测试中表现差异显著:Mathstral 7B在AIME 2024获得2/30分,而部分模型得分为0/30 [14] 方法论创新 - 使用通用强化学习技术而非形式化验证工具处理难以验证的任务 [6] - 通过扩展测试时间计算和并行计算实现深入推理 [6][25][26] - 设计特殊奖励函数使AI能处理物理奥林匹克等难以验证的难题 [26] - 每份证明由三名IMO奖牌获得者独立评分并达成一致性意见 [1] - 选择发布原始输出保持透明度,尽管证明可读性不高类似"外星语言" [1] 系统特性与可靠性 - 新模型展现出自我意识能力,在无法解答IMO第六题时主动承认局限而非输出错误答案 [8][18][19] - 显著减少推理模型"幻觉"问题,倾向于在缺乏有效证明时说"不确定" [19][20] - 该技术被视作通往人工超级智能(ASI)道路上的重要里程碑 [6] - 使用与其他项目相同的通用基础设施,未专门为IMO定制系统 [26][27] 团队与开发过程 - 核心团队仅由三名研究人员组成(Alexander Wei、Noam Brown与Sheryl Hsu) [1][4][8] - 在最后两个月冲刺完成工作,期间有研究员曾以2:1赔率打赌模型不会获胜 [1][8] - 计划将该方法整合进更多模型,全面提升推理能力并构建更强大的Agent系统 [27] 行业意义与应用前景 - 突破表明小团队也能创造重大成果,为AI开发者提供合作与创意范例 [8][29] - 通用技术可应用于数学、科学等多个领域解决未解难题 [6][26][29] - 从竞赛数学到真正数学研究存在巨大差距:IMO题需1.5小时,而千禧难题需要数千小时思考时间 [23] - 未来可能实现AI自主提出新问题,而不仅仅是解决问题 [28]
GPT5令人失望的背后:OpenAI如何做商业战略调整 | Jinqiu Select
锦秋集· 2025-08-08 23:38
GPT-5核心技术升级 - 实现"推理集成"能力,将快速响应与深度推理统一为一站式解决方案,无需用户切换模型[8] - 强化后训练微调和反馈优化,针对消费级和企业级使用进行细致打磨,提升模型实用性和可靠性[8][9] - 代码能力实现巨大飞跃,为软件开发设立全新可靠性和实用性标准,尤其在代码生成和调试方面表现突出[10][11] 商业与基础设施战略 - ChatGPT每周活跃用户高达7亿,85%用户位于美国以外,主要市场包括印度、印尼、巴西等新兴国家[12] - 企业客户达500万付费席位,覆盖金融、生物科技等多个行业,形成个人订阅+企业服务+API平台三位一体商业模式[13] - 近期完成400亿美元融资,用于大规模算力部署,与甲骨文、微软等建立超大规模云基础设施合作[15][16][17] 产品体验设计理念 - 取消模型选择功能,拒绝"跑分崇拜",强调真实场景下的实用性而非基准测试高分[21][22] - 针对特定高价值任务进行定向优化,如让GPT-5参与顶尖编码竞赛并达到世界冠军水平[22][23] 多Agent系统发展 - 探索"组织型AI"愿景,通过多个专门化代理协作完成复杂任务,类似人类团队分工[24][25] - 实际案例显示Agent可同时承担编码、设计、QA等多重角色,实现闭环自我改进[26][27] - 企业需调整工作流程才能充分发挥Agent潜力,局部使用仅能提升效率10-15%[28][29] 技术发展脉络 - GPT-1到GPT-3聚焦基础语言能力扩展,GPT-3.5到GPT-4引入对齐技术和推理机制[30][33] - GPT-4.5到GPT-5构建综合智能体系,形成基础大模型+推理层+代理编排层三层架构[31][32] - ChatGPT产品验证了通用对话AI的市场需求,成为全球数亿人日常工具[33]
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 12:37
应用趋势 - 通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富[1][13] - 以视觉操作为核心的Computer Use Agent(CUA)推向市场,正与文本类深度研究Agent融合[1][14] - 垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛[1][16][17] - 头部编程应用收入增长速度创纪录,不同应用达到5亿美元年收入所需时间缩短至2年[17][18] - 模型上下文协议(MCP)受关注但尚未规模化落地,可为大模型Agent提供技术支撑[1][19] 模型趋势 - 推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异(如代码竞赛准确率提升+129%)[21][22] - 大模型工具使用能力增强,端到端融合视觉与文本,多模态推理能力提升[1][25][26] - 图像生成控制能力、审美等全面增强,普通用户可仅通过自然语言进行复杂图像编辑[28] - 视频生成模型整合原生配音,可控性和物理规律协调性增强(如Veo 3支持音画同步生成)[29] - 小模型加速普及(如Qwen3-0.6B/1.7B/4B),降低部署门槛[30] 技术趋势 - 资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练[1][33] - 多智能体系统成前沿范式,在线学习有望成下一代学习方式[1] - Transformer架构及混合架构快速迭代优化,代码验证成AI编程自动化提升的前沿[1] 行业趋势 - xAI的Grok 4跻身全球第一梯队,证明大模型无护城河[2] - 算力成关键竞争要素,头部玩家计算集群规模达数十万卡且持续扩张[2] - OpenAI领先优势弱化,谷歌和xAI迎头赶上,中美通用大模型差距缩小[2] - 中国在多模态领域表现突出,AI编程成必争之地,国内外头部玩家密集布局[2][17]
因赛集团:正争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴
新浪财经· 2025-07-30 17:28
公司战略合作 - 公司正在争取成为某国内头部科技大厂在营销传播领域的战略合作伙伴并陪伴其全球化布局 [1] - 公司将通过自身及各营销细分领域的优秀子公司为该科技大厂提供全链路营销服务 [1] 技术研发进展 - 公司拟在Q3研发完成多智能体系统(MAS)基座并上线 [1] - 系统将整合文案、图片、视频、语音、数字人等多样化AI智能体 [1] - 公司正在研发支撑AI智能体高效协作的交互机制与动态工作流中台 [1]
AI智能体(八):构建多智能体系统
36氪· 2025-07-28 07:12
AI智能体设计组件 - 智能体包含三个核心组件:模型(Model)为推理和决策提供动力的LLM、工具(Tools)为执行操作的外部函数或API、指令(Instructions)定义行为方式的明确指导方针和防护措施[3] - 模型选择需考虑任务复杂性、延迟和成本,简单任务可用小模型处理,复杂决策需用更强模型[3] - 工具通过API扩展智能体能力,对于无API的遗留系统可依靠计算机使用模型通过UI交互[6] - 高质量指令可减少歧义改进决策,高级模型可根据文档自动生成指令[8] 智能体编排模式 - 多智能体系统可建模成图,智能体为节点,边代表工具调用或交接[11] - 监督者模式采用集中控制,群体模式采用去中心化交互[16] - 监督者模式通过创建监督者智能体来编排多个专业化智能体[17] - 群体协作模式让不同智能体能动态协作和交接任务[46] 智能体实现技术 - 函数调用是LLMs与工具交互的主要方式,工具通过利用底层应用API扩展能力[6] - 监督者模式实现包含定义工具、创建工作智能体、创建监督者智能体等步骤[19][20][21] - 群体协作模式实现包含定义工具函数、创建工作智能体、创建群体智能体等步骤[46][47] - 消息历史管理可控制包含完整历史或仅最终响应[28][30] 智能体运行机制 - 支持同步和异步两种调用模式,实时交互场景适合同步,耗时任务适合异步[51][52] - 输入必须是包含messages键的字典,纯字符串输入会自动转成HumanMessage[54][55] - 输出始终是字典结构,包含messages和可选structured_response字段[57] - 流式输出可实时获取增量更新,支持同步和异步两种方式[58][59] 智能体行业应用 - 行业协议如Anthropic的MCP协议和Google的A2A协议可优化智能体协作[70] - MCP协议通过三层架构破除工具壁垒,A2A协议聚焦智能体间协作[71] - Block公司采用MCP+A2A构建的代理系统使财务流程效率提升300%,错误率下降85%[72] - 微软正将MCP深度集成至Windows系统,预示操作系统将进化为基础代理平台[72]
如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式
机器之心· 2025-07-24 11:19
多智能体系统发展现状 - 大语言模型技术突破推动AI智能体从单点能力向复杂系统协作演进,多智能体系统(MAS)成为学术和产业界新前沿 [1] - Agentic Workflow作为智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的热点方向 [1] - 谷歌、上海AI Lab等团队已推出Meta-GPT、ADAS、AFlow等创新性Agentic Workflow工作,推动任务规划与流程优化自动化 [2] 传统工作流系统的核心瓶颈 - 现有系统采用Python脚本或JSON树等命令式代码输出工作流,导致流程规划与实现深度耦合 [7] - 三大核心瓶颈:结构不透明(流程关系难以把控)、合理性难验证(缺乏静态检查机制)、调试与优化困难(错误需运行时暴露) [10] - 主流系统如ADAS、AFlow的低层次生成方式使结构信息隐含在复杂代码中 [7] MermaidFlow的创新解决方案 - 基于结构化图语言Mermaid,将智能体行为规划显式建模为可视化流程图谱,引入形式化语义确保可验证性 [7][11] - 核心特点:图式结构清晰可见(节点与连边可视化)、流程验证内嵌(依赖闭环/角色一致性等约束)、天然支持演化与调试 [11] - 形成从结构化图到可验证执行的一站式闭环,实现白盒流程管理 [12] 技术优势与实验性能 - 大语言模型对Mermaid语言具备天然生成优势,结合更丝滑高效 [13] - 在GSM8K、MATH等数据集上表现优异,生成可执行且结构合理工作流的成功率超90% [18] - 安全演化策略通过静态验证机制(节点类型匹配/输入输出闭环)过滤劣质图,提升搜索空间质量 [14][16] 行业应用前景 - 结构化可验证工作流为智能体系统提供"看得见、查得清、能进化"的流程底座 [22] - 模块化特性支持节点级操作,显著降低修改不确定性与调试复杂度 [14] - 框架有望推动智能体生态在高效可控协作流程方向的持续进步 [22]