Planning Tool
搜索文档
深度|LangChain联合创始人:模型不再是主角,智能体时代的“Harness”正在重塑一切
Z Potentials· 2026-04-11 14:37
文章核心观点 - 人工智能领域的前沿正从模型本身转向围绕模型的整套技术栈,特别是使AI智能体(Agent)能在现实世界中可靠工作的“控制框架”(Harness)[2] - AI智能体正从简单的基于提示的系统,演变为能够规划、使用工具、编写代码、管理文件并具有长期记忆的复杂软件,这催生了对新型基础设施的需求[2][5] - 推动智能体近期加速发展的关键因素有两方面:模型能力变强,以及行业发现了让模型发挥最佳性能的核心“控制框架”原语(Harness Primitives)[2][10] - 对于AI构建者而言,真正的差异化价值和“护城河”不在于快速变化的技术框架本身,而在于特定领域的知识(Knowledge)、工具(Tool)和技能(Skill)[4][66] 智能体的演进与分类 - 第一代智能体(如基于ReAct理念或AutoGPT)的核心是让大语言模型在循环中运行并调用工具,但实际效果不佳,因此需要在其周围构建“脚手架”以提升可靠性和可预测性[9] - 随着Claude等强大模型的出现以及控制框架的成熟,智能体变得更为可靠,导致在2023年底至2024年初假期期间,大量构建者开始利用这些核心原语为各种用途构建智能体[8][10] - 当前智能体主要分为两类:1) **对话式智能体**,用于客户支持等低延迟、语音交互场景,调用工具较少;2) **长周期智能体**,可进行规划、保持连贯性,通常表现为编码智能体,是当前能力最强的类型[11][12] - 编码智能体效果突出的原因:代码是通用且强大的工具;同时,大模型本身在代码、Bash和文件编辑上进行了大量强化学习训练,这是它们表现最好的领域[11][12] 控制框架与模型的关系 - **控制框架**是决定模型如何与环境交互的关键,它包含模型可使用的一套工具、子智能体、技能、提示缓存、上下文压缩等通用功能[18][19] - 控制框架至关重要,它让智能体能够真正落地,其重要性甚至可能超过模型本身,许多成功的终端用户产品(如Manus、Claude Code)的核心优势在于其出色的控制框架[3][15][16] - 模型与控制框架的未来关系尚不确定,尽管许多团队同时构建两者,但并未观察到模型通过强化学习被专门训练为擅长其自身控制框架的明确趋势[17] - 当前阶段,控制框架与其上层的用户界面耦合度很高,许多应用是两者的有趣组合[16] 现代智能体架构的核心组件 - **系统提示**:驱动智能体行为的核心,类似于人类执行任务的标准操作程序,通常是框架内置部分与用户定制化内容(如指令、技能)的融合[20][21] - **规划工具**:一种特殊的工具,用于制定任务计划(通常是一系列带状态的待办事项),其调用行为可将计划内容放入智能体的上下文窗口,充当“思维草稿本”[22][23] - **子智能体**:用于实现上下文隔离,主智能体将任务字符串交给子智能体,后者启动一个干净的新上下文窗口执行任务后返回结果,但增加了智能体间通信的复杂性[25][26] - **文件系统**:让大语言模型能够自主管理其上下文,通过读取/写入文件来选择加载内容、进行持久化存储、卸载大型工具调用结果或存储摘要,是上下文管理的升级版[28][30] - **技能**:一组文件(通常包含一个skill.md文件),内含如何完成特定任务的指令,采用“渐进式披露”原则,仅在智能体需要时才被加载,是管理上下文窗口的另一种方式[34] 内存与上下文管理 - **上下文压缩**:当累积的上下文达到阈值时,将历史记录(保留最近的关键消息)浓缩为更小的摘要,以控制令牌消耗和成本,同时将原始消息转储到文件系统以备查询[36][37] - **内存类型**:1) **短期记忆**:在特定会话线程内的记忆;2) **长期记忆**:包括语义记忆(类似RAG)、情景记忆(过去的交互记录)和程序性记忆(关于“如何做”的指令,即智能体的配置)[40][41] - 程序性记忆(系统提示、技能、工具)是智能体定义的核心,以文件形式表示时,智能体可通过修改这些文件来实现“学习”[41] - 未来智能体架构可能呈现为一个同步的对话式智能体,在后台发起多个长周期运行的异步智能体,由不同的内存模块驱动[43] 沙盒与计算层 - **沙盒**对于智能体至关重要,主要用途是安全地编写和运行代码,无论是预加载的脚本还是智能体自行生成的代码,都需要隔离环境以执行不受信任的操作[46][47] - 智能体与沙盒的交互模式主要有两种:1) 将智能体安装在沙盒内部运行;2) 智能体运行在外部,将沙盒作为一个工具来调用,目前两种方式的使用比例大约各占一半[48] - 沙盒与安全相关,例如可通过在沙盒外部设置代理层来注入API密钥,防止沙盒内的智能体通过提示注入攻击窃取敏感信息[50] LangChain公司及其产品演变 - LangChain最初是一个开源框架,提供抽象层和“操作手册”式的链,旨在降低大语言模型应用的入门门槛[57] - 随着用户需求向生产环境推进,公司构建了**LangGraph**,作为一个更底层、非预设、具备生产级能力的智能体运行时,支持持久化执行、流式处理、循环以及内存持久化[57][58] - **LangChain 1.0** 聚焦于“循环运行并调用工具”这一变得可靠的模式,并在LangGraph之上重构,成为一个高度可配置的底层原语,用于构建自定义控制框架[59] - **DeepAgents** 是公司推出的一个“开箱即用”的控制框架,打包了系统提示、规划工具、文件系统、子智能体等现代智能体核心组件[32][59] - 商业产品**LangSmith**的核心是“可观测性++”,因为智能体行为在运行前不可预知,可观测性(包括单次运行、追踪和会话线程的捕获)比传统软件更为重要,并与评估、部署等环节紧密相连[60][61] - 公司近期完成了1.25亿美元融资,未来将加倍投入可观测性++,并致力于构建一个完整的智能体工程平台,包括部署、无代码开发等[65] 行业趋势与稳定层 - 智能体的“脚手架”和具体功能特性仍在快速变化,但控制框架的底层模式(循环运行、调用工具、与文件系统交互、编写代码)相对更稳定[43] - 更底层的基础设施组件可能更具稳定性,例如:**可观测性**、**评估**、**沙盒**以及用于部署长周期有状态应用的**状态化**平台[44] - 模型上下文协议作为一种以标准化格式暴露API的方式,其核心价值被认为非常有用[44] - 对于企业而言,最重要的资产是特定领域的指令和工具本身,无论它们最终被打包成技能、子智能体还是定制化工作流,这些资产都具有持久价值[42][43]