一文讲透Agent的底层逻辑
虎嗅·2025-10-22 22:47

AI Agent核心观点 - AI Agent能力的质变关键不在于底层大模型智力的增长,而在于围绕模型设计的有效"认知流程" [3] - 行业对Agent存在两种认知误区:过度神秘化或过度简化,导致沟通成本很高 [1][2] - 从Chatbot到Agent的进化是从"优雅的文本统计模仿"转向"可靠的行动派"的本质转变 [47][52] Agent能力演进阶段 - 阶段一原生天才:对应基础API调用,一次性黑盒生成答案,无法保证可靠性 [20] - 阶段二思考者:引入思维链(CoT)流程,将复杂任务分解为线性推理子任务,降低幻觉概率 [22] - 阶段三细心人:通过自我反思(Reflexion)框架实现"先行动、再复盘、后修正"的迭代流程,在HumanEval代码生成任务上达到91%准确率,超越GPT-4的80%记录 [25][26] - 阶段四战略家:具备规划能力,将宏大目标分解为逻辑清晰的子任务清单,提升执行效率和确定性 [29] - 阶段五学者:通过ReAct框架实现思考->行动->观察循环,将AI从封闭大脑转变为能与现实世界互动的行动者 [31][34][38] 流程驱动的三重价值 - 结构价值:用规划(Planning)和思维链(CoT)等流程为AI思考建立逻辑脚手架,对抗思维混沌 [56][59] - 迭代价值:通过反思(Reflection)和总结(Summarization)流程为记忆打造压缩算法,实现长期记忆演化 [61][64] - 交互价值:通过工具使用(Tool Use)连接现实世界,确保获取真实质量而非高质量幻觉 [65][67] 理论基础与科学原理 - 控制论视角:Agent工作流程对应闭环控制系统,通过反馈机制实现从开环到闭环的进化 [74][78][84] - 信息论视角:Agent工作是通过行动获取信息进行熵减的过程,系统性地消除不确定性 [86][90][91] - 两个理论共同为Agent框架的可靠性与有效性提供坚实科学基石 [94] 开发者角色转变 - 从"提示词工程师"转变为"Agent流程架构师",核心价值体现在思考结构、记忆机制和世界交互范式的设计上 [72][98][99] - 新角色三大核心职责:设计AI思考流程、赋能AI行动工具、构建AI决策上下文 [100][101][102] - 行业竞争力核心从模型参数大小转向智能流程优劣,LLM应用未来取决于流程设计 [96] 性能工程与架构演进 - 架构选型与剪枝:对简单场景使用LLM内置工具调用范式,降低token消耗和延迟 [106] - 并行化执行:通过异步I/O实现并行工具调用,将总耗时从"所有任务耗时之和"缩短为"最长任务耗时" [106] - 模型特化与路由:采用混合模型策略,轻量模型处理高频任务,重量模型处理复杂推理 [115] - 高效记忆架构:设计精准的记忆检索机制,以最低Token成本注入最关键信息 [115] 前沿架构探索方向 - 认知调度中心:实现智能工作流编排,如Anthropic的"Skills"功能允许模型自主选择、组合并调用多个工具 [108] - 规约驱动分层架构:通过技术规约(Specification)实现多Agent可靠协作,进化为可追溯的现代软件工程 [109] - 即时代码生成:让Agent从"使用工具"进化到"创造工具",通过CodeAct等框架动态生成代码扩展能力边界 [110]