A2A协议
搜索文档
AI Agent:超级助手,重塑人类生活和商业
泽平宏观· 2026-02-05 00:06
AI Agent的定义与核心价值 - AI Agent是具备行动力的代理式AI,核心区别在于能从生成内容转向执行行动,拥有“大脑规划+工具调用+记忆经验”的能力 [4][10][13] - AI Agent是AI发展的第三阶段,标志着从“对话AI”到“干活AI”的本质跃迁,最终目标是实现具身智能AI [7][10] - 根据能力分级,AI Agent属于Level 3,是可执行行动的系统,高于仅具备对话或推理能力的AI [12] AI Agent带来的未来生活改变 - **APP后台化与商业模式重构**:未来手机界面可能简化,AI Agent在后台直接调度各应用服务,用户无需操作具体APP,这将冲击现有的流量和广告商业模式 [14] - **操作系统拟人化**:未来的操作系统将演变为全知全能的智能管家,能主动预测并满足用户需求,实现系统完全服务于人 [14] - **人类角色转变**:AI Agent将接管大部分执行工作,人类的核心价值将转向决策与审美,个人借助Agent团队可实现远超传统公司的生产力 [15] AI Agent的行业竞争格局 - **全球科技巨头卡位战**:Meta拟以数百亿美元收购Manus,引发对AI Agent超级入口的争夺,证明中国AI企业已具备全球产品与工程竞争力 [17] - **主要厂商战略路径**: - OpenAI推出系统级Agent“Operator”,在处理多步骤复杂任务时成功率已达70% [18] - 微软推出“Windows 365 for Agents”平台,专注于智能体管理和工作流程预测 [18] - Anthropic专注于提供底层的“Computer Use”API能力,定位为基础设施提供商 [18] - 谷歌通过“Project Jarvis”接管Chrome浏览器,并将Gemini Nano植入安卓系统以守住入口 [19] - 马斯克的Grok致力于与特斯拉汽车和Optimus机器人结合,向物理世界操控拓展 [19] - **中国大厂布局差异**: - 字节跳动聚焦平台化工具“扣子空间”构建技能生态,并与中兴合作推出豆包手机,但遭遇生态围剿 [20] - 阿里巴巴利用其商业生态,将通义千问打造成智能调度中枢,直接调用集团内部服务 [5][20] - 百度结合网盘、文库等优势,将智能体定位为“超级个人助手”,专注于个人知识管理与生产力 [20] AI Agent的关键技术趋势:协议标准化 - **MCP协议成为AI世界的“Type-C接口”**:由Anthropic提出,现已成为行业通用连接标准,支持大模型与外部工具的即插即用,极大提升了AI Agent调用技能的效率 [22][24] - **MCP协议的应用案例**:例如,Claude通过MCP可打通Notion、Linear和GitHub等系统;Coinbase推出基于MCP的Agent Wallet;国内支付宝、高德地图、百度系应用也提供了MCP Server服务 [25] - **A2A协议解决“机机交互”**:由谷歌提出,旨在实现不同AI Agent之间的直接对话与协作,未来互联网可能从APP群岛转变为Agent联盟 [26][27] AI Agent落地的主要挑战与未来展望 - **核心挑战是利益重构**:AI Agent绕过APP界面直接调用底层服务,动摇了互联网公司依赖广告、用户时长和数据的商业模式,引发了关于流量与入口控制权的争夺 [3][31] - **生态冲突的现实案例**:字节跳动推出的豆包手机因试图通过屏幕读取和模拟点击操控第三方APP,遭遇微信、淘宝、银行APP的强力反制,导致核心功能受阻 [32] - **可能的解决方案与商业模式演变**:未来可能出现“Service-as-an-API”模式,即应用提供“Agent专用付费接口”并收取“Agent税”,商业模式从追求用户时长转向追求交易并发量 [33]
AI Agents与Agentic AI 的范式之争?
自动驾驶之心· 2025-09-06 00:03
AI智能体技术演进历程 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 引发AI Agents和Agentic AI搜索热度飙升[2][4] - 早期专家系统如MYCIN(70年代)依赖符号推理和预设规则 缺乏学习能力和环境适应性[10] - 多智能体系统(MAS)和BDI架构(1999年)实现分布式问题解决 但仍受预编程限制[11] - 2023年AutoGPT等框架标志AI Agents落地 结合LLM与外部工具实现多步骤任务自主执行[12] - 2023年底CrewAI等系统推动进入Agentic AI阶段 多专业智能体协同分解复杂目标[12] - 谷歌2025年推出A2A协议 制定五大核心原则解决智能体互操作问题[12] AI Agents核心技术架构 - 定义为LLM和LIM驱动的模块化系统 填补生成式AI"只会说不会做"的空白[13] - 具备三大核心特征:自主性(无需人工干预) 任务特异性(专注单一领域) 反应性(适应动态变化)[16][17] - LLM作为推理决策中枢 承担目标解析 步骤分解和工具调用协调功能[21] - LIM扩展视觉感知能力 例如果园巡检AI实时识别病果和断枝并触发警报[21] - 工具集成通过"调用-结果整合"流程解决LLM知识滞后和幻觉问题[19] - ReAct框架实现推理与行动交替进行 例如ChatGPT网页搜索先判断知识缺口再调用工具[19] - Anthropic的"Computer Use"项目实现目标-行动-观察循环 控制鼠标键盘完成软件测试等任务[18] Agentic AI系统级创新 - 实现从孤立执行到协同决策的范式转变 核心在于多智能体协作解决复杂任务[24][27] - 与AI Agents关键差异体现在:广泛自主性 复杂任务协调 多智能体信息共享和跨环境学习能力[28] - 智能家居案例展示系统级智能:天气预测 能源管理和安防智能体协同实现全局目标[29] - 架构依赖两大支柱:协调层(元智能体负责任务分配和冲突解决) 共享记忆(存储任务进度和上下文)[33][36] - 动态任务分解将高级目标拆分为子任务 分配给专业智能体避免效率低下[33] - 科研助手AutoGen框架实现多智能体分工:检索 总结 整合 写作和引用智能体协同撰写综述[37] - 医疗决策支持系统集成监测 病史 治疗和协调智能体 降低误判风险并减少医生认知负担[38] 应用场景与典型案例 - AI Agents适用于客户服务 邮件筛选 内容推荐和日程管理等标准化任务[41] - Agentic AI在科研 农业 医疗和网络安全等复杂动态环境中展现优势[43] - 果园采摘场景实现多机器人协同:无人机测绘 采摘机器人 运输机器人和路径规划智能体联动[37][43] - 自动化基金申请书撰写通过多智能体协同完成文献分析 合规匹配和格式规范[43] - 企业网络安全事件响应由智能体分别处理威胁分类 合规分析和缓解方案制定[43] - ICU临床决策支持系统同步执行诊断 治疗方案制定和EHR分析 提升医疗安全性[43] 技术挑战与解决方案 - AI Agents存在因果推理缺失 LLM幻觉 知识滞后 提示敏感性和长期规划弱等痛点[50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测和可解释性差等挑战[50] - 十大解决方案包括:RAG提供实时外部知识 ReAct框架强化推理行动循环 因果建模区分相关性[49][52][53] - 共享记忆架构解决信息同步 元智能体协调避免混乱 工具验证机制自动修正错误[53] - 反思机制赋予自我批判能力 监控审计pipeline记录决策日志 治理架构防范安全风险[53] 未来发展方向 - AI Agents进化重点:提升主动推理能力 深化工具集成(结合机器人硬件) 强化因果推理[57] - Agentic AI突破方向:规模化多智能体协作(支持上千智能体) 领域定制化 伦理治理[57] - Absolute Zero框架探索零数据学习 实现自我驱动式的科研假设生成和验证[57] - 终极目标是从自动化工具进化为人类协同伙伴 适应高风险领域共同决策[58] - 需突破因果推理深度化 可解释性透明化和伦理安全体系化三大瓶颈[59]
AI智能体(八):构建多智能体系统
36氪· 2025-07-28 07:12
AI智能体设计组件 - 智能体包含三个核心组件:模型(Model)为推理和决策提供动力的LLM、工具(Tools)为执行操作的外部函数或API、指令(Instructions)定义行为方式的明确指导方针和防护措施[3] - 模型选择需考虑任务复杂性、延迟和成本,简单任务可用小模型处理,复杂决策需用更强模型[3] - 工具通过API扩展智能体能力,对于无API的遗留系统可依靠计算机使用模型通过UI交互[6] - 高质量指令可减少歧义改进决策,高级模型可根据文档自动生成指令[8] 智能体编排模式 - 多智能体系统可建模成图,智能体为节点,边代表工具调用或交接[11] - 监督者模式采用集中控制,群体模式采用去中心化交互[16] - 监督者模式通过创建监督者智能体来编排多个专业化智能体[17] - 群体协作模式让不同智能体能动态协作和交接任务[46] 智能体实现技术 - 函数调用是LLMs与工具交互的主要方式,工具通过利用底层应用API扩展能力[6] - 监督者模式实现包含定义工具、创建工作智能体、创建监督者智能体等步骤[19][20][21] - 群体协作模式实现包含定义工具函数、创建工作智能体、创建群体智能体等步骤[46][47] - 消息历史管理可控制包含完整历史或仅最终响应[28][30] 智能体运行机制 - 支持同步和异步两种调用模式,实时交互场景适合同步,耗时任务适合异步[51][52] - 输入必须是包含messages键的字典,纯字符串输入会自动转成HumanMessage[54][55] - 输出始终是字典结构,包含messages和可选structured_response字段[57] - 流式输出可实时获取增量更新,支持同步和异步两种方式[58][59] 智能体行业应用 - 行业协议如Anthropic的MCP协议和Google的A2A协议可优化智能体协作[70] - MCP协议通过三层架构破除工具壁垒,A2A协议聚焦智能体间协作[71] - Block公司采用MCP+A2A构建的代理系统使财务流程效率提升300%,错误率下降85%[72] - 微软正将MCP深度集成至Windows系统,预示操作系统将进化为基础代理平台[72]
你真的会用DeepSeek么?
搜狐财经· 2025-05-07 12:04
AI Agent行业趋势 - AI行业正从单一模型应用转向多Agent协作网络,形成"AI互联网"新范式 [7][8][27] - 2025年起行业需求从"驱动单个模型"升级为"设计智能体协作系统",从业者角色需从使用者转变为组织者 [21][27][29] - 字节跳动、阿里、腾讯等国内平台加速布局MCP协议基础设施,海外谷歌A2A协议与Anthropic MCP协议推动跨系统协同标准 [36][37][38][39] 技术架构变革 - Agent通信依赖结构化协议(MCP/A2A)而非自然语言Prompt,意图表达、任务链图谱取代传统Prompt工程 [14][27][29] - 平台化趋势显著:阿里百炼5分钟搭建MCP服务,百度推MCP插件商店,OpenAgents支持自然语言发布Agent能力 [16][38] - 开源框架LangGraph、AutoGen、CrewAI等提供多Agent编排工具,支持状态机、DAG等协作建模 [33][35][41] 企业动态与产品 - 字节跳动2025年4月推出"扣子空间"内测平台并开源Agent TARS项目,支持任务规划与多工具调用 [16][39] - 阿里云百炼上线全生命周期MCP服务,集成高德、无影等50+能力模块,提供零部署Agent构建体验 [38] - 腾讯云发布"AI开发套件"聚焦企业级调度中台,火山引擎OS Agent整合MCP协议实现"一句话开发" [38][39] 从业者转型路径 - 工程岗需转向智能体系统开发:学习LangGraph状态机、MCP协议结构、平台接口设计,目标成为Agent基础设施构建者 [33] - 运营/产品岗需掌握业务需求拆解为多Agent意图的能力,熟练使用AutoGen Studio等平台进行协作设计 [34] - 创业者应聚焦生态构建:将工具服务注册为Agent节点,参与制定意图协议标准,搭建私域Agent网络 [35] 行业基础设施进展 - 海外A2A协议覆盖50+巨头企业,专注跨平台Agent通信标准,MCP协议则强化任务调度与状态传递 [36][37] - 国内形成平台+开源双轨发展:阿里/腾讯提供企业级MCP服务,LangGraph等框架降低多Agent系统构建门槛 [38][41] - 协议层创新类比TCP/IP,MCP/A2A可能成为未来智能体互联网的底层秩序 [42]