Workflow
LangSmith
icon
搜索文档
深度|LangChain联合创始人:模型不再是主角,智能体时代的“Harness”正在重塑一切
Z Potentials· 2026-04-11 14:37
文章核心观点 - 人工智能领域的前沿正从模型本身转向围绕模型的整套技术栈,特别是使AI智能体(Agent)能在现实世界中可靠工作的“控制框架”(Harness)[2] - AI智能体正从简单的基于提示的系统,演变为能够规划、使用工具、编写代码、管理文件并具有长期记忆的复杂软件,这催生了对新型基础设施的需求[2][5] - 推动智能体近期加速发展的关键因素有两方面:模型能力变强,以及行业发现了让模型发挥最佳性能的核心“控制框架”原语(Harness Primitives)[2][10] - 对于AI构建者而言,真正的差异化价值和“护城河”不在于快速变化的技术框架本身,而在于特定领域的知识(Knowledge)、工具(Tool)和技能(Skill)[4][66] 智能体的演进与分类 - 第一代智能体(如基于ReAct理念或AutoGPT)的核心是让大语言模型在循环中运行并调用工具,但实际效果不佳,因此需要在其周围构建“脚手架”以提升可靠性和可预测性[9] - 随着Claude等强大模型的出现以及控制框架的成熟,智能体变得更为可靠,导致在2023年底至2024年初假期期间,大量构建者开始利用这些核心原语为各种用途构建智能体[8][10] - 当前智能体主要分为两类:1) **对话式智能体**,用于客户支持等低延迟、语音交互场景,调用工具较少;2) **长周期智能体**,可进行规划、保持连贯性,通常表现为编码智能体,是当前能力最强的类型[11][12] - 编码智能体效果突出的原因:代码是通用且强大的工具;同时,大模型本身在代码、Bash和文件编辑上进行了大量强化学习训练,这是它们表现最好的领域[11][12] 控制框架与模型的关系 - **控制框架**是决定模型如何与环境交互的关键,它包含模型可使用的一套工具、子智能体、技能、提示缓存、上下文压缩等通用功能[18][19] - 控制框架至关重要,它让智能体能够真正落地,其重要性甚至可能超过模型本身,许多成功的终端用户产品(如Manus、Claude Code)的核心优势在于其出色的控制框架[3][15][16] - 模型与控制框架的未来关系尚不确定,尽管许多团队同时构建两者,但并未观察到模型通过强化学习被专门训练为擅长其自身控制框架的明确趋势[17] - 当前阶段,控制框架与其上层的用户界面耦合度很高,许多应用是两者的有趣组合[16] 现代智能体架构的核心组件 - **系统提示**:驱动智能体行为的核心,类似于人类执行任务的标准操作程序,通常是框架内置部分与用户定制化内容(如指令、技能)的融合[20][21] - **规划工具**:一种特殊的工具,用于制定任务计划(通常是一系列带状态的待办事项),其调用行为可将计划内容放入智能体的上下文窗口,充当“思维草稿本”[22][23] - **子智能体**:用于实现上下文隔离,主智能体将任务字符串交给子智能体,后者启动一个干净的新上下文窗口执行任务后返回结果,但增加了智能体间通信的复杂性[25][26] - **文件系统**:让大语言模型能够自主管理其上下文,通过读取/写入文件来选择加载内容、进行持久化存储、卸载大型工具调用结果或存储摘要,是上下文管理的升级版[28][30] - **技能**:一组文件(通常包含一个skill.md文件),内含如何完成特定任务的指令,采用“渐进式披露”原则,仅在智能体需要时才被加载,是管理上下文窗口的另一种方式[34] 内存与上下文管理 - **上下文压缩**:当累积的上下文达到阈值时,将历史记录(保留最近的关键消息)浓缩为更小的摘要,以控制令牌消耗和成本,同时将原始消息转储到文件系统以备查询[36][37] - **内存类型**:1) **短期记忆**:在特定会话线程内的记忆;2) **长期记忆**:包括语义记忆(类似RAG)、情景记忆(过去的交互记录)和程序性记忆(关于“如何做”的指令,即智能体的配置)[40][41] - 程序性记忆(系统提示、技能、工具)是智能体定义的核心,以文件形式表示时,智能体可通过修改这些文件来实现“学习”[41] - 未来智能体架构可能呈现为一个同步的对话式智能体,在后台发起多个长周期运行的异步智能体,由不同的内存模块驱动[43] 沙盒与计算层 - **沙盒**对于智能体至关重要,主要用途是安全地编写和运行代码,无论是预加载的脚本还是智能体自行生成的代码,都需要隔离环境以执行不受信任的操作[46][47] - 智能体与沙盒的交互模式主要有两种:1) 将智能体安装在沙盒内部运行;2) 智能体运行在外部,将沙盒作为一个工具来调用,目前两种方式的使用比例大约各占一半[48] - 沙盒与安全相关,例如可通过在沙盒外部设置代理层来注入API密钥,防止沙盒内的智能体通过提示注入攻击窃取敏感信息[50] LangChain公司及其产品演变 - LangChain最初是一个开源框架,提供抽象层和“操作手册”式的链,旨在降低大语言模型应用的入门门槛[57] - 随着用户需求向生产环境推进,公司构建了**LangGraph**,作为一个更底层、非预设、具备生产级能力的智能体运行时,支持持久化执行、流式处理、循环以及内存持久化[57][58] - **LangChain 1.0** 聚焦于“循环运行并调用工具”这一变得可靠的模式,并在LangGraph之上重构,成为一个高度可配置的底层原语,用于构建自定义控制框架[59] - **DeepAgents** 是公司推出的一个“开箱即用”的控制框架,打包了系统提示、规划工具、文件系统、子智能体等现代智能体核心组件[32][59] - 商业产品**LangSmith**的核心是“可观测性++”,因为智能体行为在运行前不可预知,可观测性(包括单次运行、追踪和会话线程的捕获)比传统软件更为重要,并与评估、部署等环节紧密相连[60][61] - 公司近期完成了1.25亿美元融资,未来将加倍投入可观测性++,并致力于构建一个完整的智能体工程平台,包括部署、无代码开发等[65] 行业趋势与稳定层 - 智能体的“脚手架”和具体功能特性仍在快速变化,但控制框架的底层模式(循环运行、调用工具、与文件系统交互、编写代码)相对更稳定[43] - 更底层的基础设施组件可能更具稳定性,例如:**可观测性**、**评估**、**沙盒**以及用于部署长周期有状态应用的**状态化**平台[44] - 模型上下文协议作为一种以标准化格式暴露API的方式,其核心价值被认为非常有用[44] - 对于企业而言,最重要的资产是特定领域的指令和工具本身,无论它们最终被打包成技能、子智能体还是定制化工作流,这些资产都具有持久价值[42][43]
AI智能体不只靠模型进化:三层学习架构详解
深思SenseAI· 2026-04-07 08:05
文章核心观点 - LangChain创始人Harrison Chase提出,AI智能体的“持续学习”应涵盖三个独立层面:模型层、框架层和上下文层,仅聚焦于更新模型权重可能会错过80%的优化空间 [2] - 智能体系统的进化需要系统层面的持续优化,而不仅仅是依赖更好的基础模型 [2] - 大多数团队的最优策略是优先优化上下文层,其次是框架层,最后考虑成本高昂的模型层 [30] - 真正优秀的智能体系统应具备自我进化的能力,而非被动等待模型升级 [35] 三层架构 - 智能体系统可拆分为三层:模型层、框架层和上下文层 [4] - **模型层**:指模型权重本身,如Claude Sonnet、GPT-4等底层大模型 [4] - **框架层**:指驱动智能体运行的所有代码和基础配置,包括指令、工具调用链等逻辑,为所有实例共享 [5] - **上下文层**:指独立于框架的配置信息,如指令、技能、工具,可针对不同用户、团队或组织进行个性化设置 [5] - 三层架构的优势在于能精确诊断问题所在,明确是模型能力不足、框架逻辑问题还是上下文信息缺失 [8] 各层学习的特点与对比 - 模型层学习:主要指更新模型权重,方法包括有监督微调、强化学习等,但面临“灾难性遗忘”的核心难题 [9] - 模型层更新成本高、速度慢(周期可能长达数周)、不可人工审查,但影响上限最高 [13] - 框架层学习:指优化围绕模型的代码,包括提示词、工具调用方式和执行流程,其更新是代码级别的,可人工审查、回滚和进行版本控制 [15][16] - 上下文层学习:涉及对指令、技能、工具等“记忆”的更新,是当前最被低估的一层 [17] - 上下文层更新成本最低、速度最快、可人工直接检查和修改,但影响上限中等 [13] - 模型层如同“大炮”,上下文层如同“手术刀”,不同场景需要不同工具 [14] 上下文层学习的深度解析 - 上下文层学习可在不同层级发生:智能体级别、用户级别、团队/组织级别,且这些层级可以混合使用 [20] - 这使得智能体能够实现“千人千面”的服务体验,而无需为每个客户训练专用模型,成本相差数个数量级 [20] - 上下文层的更新有两种模式:**离线批处理**(事后回顾执行记录以更新)和**实时更新**(在执行任务过程中即时更新记忆) [21][23] - 记忆更新的“显性程度”是一个重要维度,未来趋势是智能体应能自动识别并记住有价值的信息 [23] 追踪记录的核心作用 - **追踪记录**是智能体完整的执行路径,是所有层面持续学习的“燃料”,没有它则学习无从谈起 [24][25] - 同一份追踪记录可在三个层面分别被利用:用于模型训练、框架优化或上下文更新 [26] - 构建或优化智能体系统的首要建议是建立完善的追踪记录收集机制 [28] 实际应用策略与行业启示 - 根据对比表,模型层影响上限最高但更新成本高、速度慢;框架层居中;上下文层成本低、速度快、可审查 [29] - 对于大多数团队,应优先做好上下文层,再优化框架层,最后考虑模型层,因为上下文层的投入产出比最高 [30] - 通用智能体平台则需要三个层面同时投入,例如OpenAI同时优化Codex模型、产品逻辑并支持用户自定义指令 [30] - 更强的模型解决的是通用能力问题,而框架和上下文层解决的是具体场景的适配问题,两者缺一不可 [31] - 评估智能体系统时应关注:是否持续变聪明、学习发生在哪一层、是否收集利用追踪记录、三层之间是否形成联动飞轮 [32][33] - 行业常见的误区是将所有问题归结为“模型不够好”,而忽略了框架和上下文层可能存在的巨大优化空间 [33][34]
模型不再是关键?LangChain 创始人:真正决定Agent 上限的是运行框架
AI前线· 2026-03-13 13:01
行业趋势:AI应用从单次生成迈向持续执行 - AI应用正从“单次生成”迈向“持续执行”,下一代软件系统将围绕全新的“智能体编排”架构展开,该架构负责让智能体自主规划、调用工具、编写代码、管理文件、压缩上下文、调度子智能体,并在长时程任务中保持连贯行动 [2] - 简单调用LLM API、套一层提示词就能做产品的时代已经走到尽头,整个软件基础设施层正在被重新书写 [2][3] 智能体架构的核心组件 - 现代智能体拥有四大核心统一组件:系统提示词、规划工具、子智能体、文件系统 [3][27] - **系统提示词**:驱动智能体,告诉它该做什么,类似于“标准作业流程”,通常由框架内置部分和用户定制部分合并而成 [18][20] - **规划工具**:生成计划并写入文件,作为智能体的“思维草稿本”指导行动,主流方式是将计划存在文本文件中供智能体参考,而非强制执行严格步骤 [21] - **子智能体**:用于隔离上下文,主智能体可启动子智能体执行任务并仅返回结果,其核心挑战在于智能体间的有效沟通 [22] - **文件系统**:本质是让LLM自己管理上下文窗口,用于卸载超大工具调用结果、进行摘要和持久化存储,关键是以文件系统接口暴露给LLM [25][26] 智能体的分类与发展 - 智能体主要分为两类:一类是低延迟、少调工具的**对话式智能体**;另一类是红杉资本提出的可长时间运行、做规划、保持连贯性的**长时程智能体** [11] - 长时程智能体最终大多表现为**编码智能体**,因为代码通用性强,且模型最擅长处理代码、Bash命令和文件编辑 [11] - 未来趋势是两类智能体形态融合,对话智能体在前台,后台启动异步运行的子智能体处理长时程任务,最终收敛到同一框架 [12] 模型与框架的关系 - LangChain创始人认为“框架才是未来,模型终将走向商品化”,框架是模型与环境交互的整套方式,是一套通用工具集 [3][14][16] - 框架极其重要,许多终端产品(如Manis、Claude Code)的核心秘诀在于其框架,而框架与上层UI之间的耦合非常紧密 [14][15] 智能体的其他关键能力与概念 - **技能**:本质是一堆文件(如skill.md),包含完成某事的指令或可执行脚本,采用“渐进式披露”原则,仅在LLM需要时加载,是让其自己管理上下文窗口的关键方式 [30] - **上下文压缩**:当上下文积累过多时进行精简,常见做法是保留最近N条消息,将更早的消息摘要后存入上下文,同时将原始完整消息存进文件系统 [32][34] - **记忆分类**:分为**语义记忆**(关于世界的事实,如RAG)、**情景记忆**(过去的交互记录)和**程序记忆**(“如何做某事”的指令,即智能体的配置如系统提示词、技能、工具) [35][38] - **沙盒**:智能体编写并运行代码所必需的安全执行环境,核心价值是提供架构上的隔离,防止提示注入泄露密钥等安全问题 [9][41][47] LangChain的产品演进与战略 - LangChain从早期开源框架,演进为包含LangGraph、Deep Agents、LangSmith及Agent Builder的“生产级智能体运行时” [4] - **LangChain 1.0**:彻底聚焦于“让LLM循环运行+调用工具”的核心模式,在LangGraph之上重构,保持极度中立和高度可配置 [52] - **LangGraph**:面向图结构工作流的框架,提供更强的结构化能力和可靠性,被视为“智能体运行时” [8][52] - **Deep Agents**:开箱即用的完整框架,内置规划工具、文件系统等现代智能体核心组件 [27][52] - **LangSmith**:核心是可观测性增强版,因为智能体输入范围广且LLM非确定性,使得运行轨迹的可观测、评估、调试比传统软件重要得多 [4][53][57] - 公司刚完成1.25亿美元新融资,下一步核心方向是全力投入商业化表现最强的可观测性,并补齐部署与无代码能力,朝完整的智能体工程平台推进 [4][61][63] 行业竞争与差异化壁垒 - 对于AI开发者而言,最大的差异化在于**指令、工具和技能**,即将行业流程知识编码成自然语言并配备相应工具,而非过度绑定于特定框架或模型 [9][37][64] - 企业真正的壁垒在于将行业知识转化为“指令+工具+技能”,这些价值不会随技术脚手架快速迭代而消失 [9][37]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
AI前线· 2026-01-31 13:33
文章核心观点 - 以LangChain创始人Harrison Chase的观点为核心,阐述了“长任务Agent”的兴起正在从根本上改变软件工程范式,其核心差异在于系统行为不再完全由确定性代码决定,而是由非确定性的模型黑箱与代码共同决定,这要求开发、测试和调试方法发生根本性转变 [2][30] - 预测长任务Agent的落地将在2025年末到2026年进一步加速,2026年可能成为“长任务Agent元年”,这将对现有软件公司的竞争格局产生类似从本地部署到云转型的深远影响 [2][3] - 当前最成熟的长任务Agent应用是编程Agent,其核心算法是“让LLM在循环中运行”,而未来的进步将依赖于更聪明的上下文工程(如压缩、记忆)以及模型与框架/harness的共同进化 [7][13][21][24] 长任务Agent的定义、现状与案例 - **定义与拐点**:长任务Agent不只是多回合聊天,而是能在更长时间里持续执行、反复试错、不断自我修正的“数字员工”[2] 其真正起飞的拐点大约在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志 [21] - **核心应用形态**:目前最成熟、使用最多的案例是编程Agent [9] 其他优秀案例包括AI SRE(如Traversal公司的产品)和研究型Agent [9] 最“杀手级”的应用形态是让Agent长时间运行并产出“初稿”,然后由人类进行审阅和修改,这在编程、AI SRE、报告生成、金融研究和客服领域均有体现 [9][10] - **为何现在可行**:这是模型能力提升与工程框架/harness成熟共同作用的结果 [13] 模型方面,推理模型带来了巨大提升 [13] 工程方面,逐渐摸索出了上下文压缩、规划、文件系统工具等关键原语 [12][13] Agent工程范式的转变:从框架到Harness - **框架与Harness的区别**:框架是围绕模型的一层抽象,强调灵活性和基础设施,便于切换模型和封装组件 [11] Harness则更“有主张”,内置了明确的设计立场和最佳实践,例如Deep Agents默认提供规划工具和上下文压缩功能 [11][12] - **Harness的现状**:目前在Harness工程上做得最好的大多是编程类公司(如Claude Code、Factory、AMP),其性能差异不仅来自模型,更来自对“模型如何在harness中工作”的理解 [15][17] Harness往往与模型家族绑定紧密,不同模型家族可能需要不同的设计 [17] - **Harness的设计关键**:包括对模型训练偏好的理解(如OpenAI模型熟悉Bash,Anthropic提供显式文件编辑工具)、高效的上下文压缩机制、以及主Agent与子Agent的高效通信策略 [18] 许多公开的harness prompt长达几百行 [19] 构建Agent与传统软件开发的根本差异 - **逻辑来源与确定性**:传统软件的所有逻辑都写在代码里,是确定性的;而Agent的行为逻辑很大一部分来自模型本身,是一个非确定性的黑箱,必须通过实际运行才能理解其行为 [30] - **开发与调试核心**:传统软件的“真相来源”在代码中,而Agent的真相来源是代码与执行轨迹的组合 [32] 因此,追踪/执行轨迹成为理解、调试和团队协作的核心工具,其重要性远超过在传统软件中的应用 [30][31][33] - **开发流程**:构建Agent是一个更偏迭代式的过程,因为在发布前无法完全确定Agent会如何行动,需要通过更多轮次的交互和反馈来调整系统prompt或指令,使其行为符合预期 [34][35] 人类的判断和反馈被深度整合到开发与评估循环中 [39][40] 现有软件公司的挑战与机遇 - **面临的挑战**:工程范式的变化将重新筛选参与者,并非所有公司都能成功转型,类似当年从本地部署转向云 [2][36] 年轻团队可能因没有传统软件开发方式的先入之见而更快适应新范式 [36] - **潜在优势**:现有公司手中握有的高价值数据与API依然是王牌资产,能够较容易地暴露给智能体使用并产生真实价值 [3][37][38] 关于“如何使用这些数据”的指令和流程知识是新的竞争点,垂直领域创业公司(如金融领域的Rogo)通过注入行业知识获得了优势 [38] - **可能的护城河**:记忆功能可能成为真正的护城河,特别是在为特定任务构建的工作流型Agent中,记忆能让系统通过反思历史交互来改进自身,从而形成持续优化的体验优势 [52] 但实现安全且用户可接受的自我改进是关键挑战 [52] Agent能力栈与未来演进方向 - **核心能力组件**:文件系统访问能力被认为是长任务Agent的必备项,无论是真实还是虚拟文件系统,对于上下文管理、状态存储和中间结果回查都至关重要 [25][56] 代码执行环境是另一个高度看好的标配能力,其成熟度优于直接操作浏览器 [56] - **上下文工程演进**:未来的进步将来自更聪明的上下文管理方式,例如让模型自己决定何时进行上下文压缩,以及发展跨长时间尺度的记忆系统 [24] 记忆本质上是长期的上下文工程 [24] - **交互界面演进**:与长任务Agent协作的UI需要同时支持异步管理和同步对话模式 [53] 异步模式用于管理长时间运行或并行的多个Agent,同步模式则用于即时反馈和纠正 [53][55] 能够查看和协作的“工作区”状态(如文件、目录)是界面设计的重要部分 [54]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
程序员的那些事· 2026-01-31 11:16
文章核心观点 - 软件工程范式正在发生根本性转变,从由确定性代码定义系统行为,转向由非确定性的AI模型(Agent)驱动,这要求全新的开发、测试和调试方法 [1] - 长任务Agent(Long Horizon Agents)在2025年末至2026年将加速落地,其能力远超多回合聊天,更像能在长时间内持续执行、试错和自我修正的“数字员工” [1] - 构建Agent不仅是给软件开发“加一层AI”,而是工程范式本身的变革,这将对现有软件公司的竞争格局和护城河构成挑战 [2] 长任务Agent的现状与拐点 - 长任务Agent的核心是让大语言模型在一个循环中自主运行和决策,这一设想因模型能力增强和支撑框架(Harness)的成熟而开始真正奏效 [6] - 当前最成熟的长任务Agent应用是编程Agent,其能力正在向AI SRE(站点可靠性工程)、研究型Agent(如分析事故日志)、报告生成、金融研究和客服等领域扩散 [7] - 长任务Agent的拐点大约出现在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志,其底层使用同一核心算法:让LLM在循环中运行 [18] - 对于许多程序员而言,Claude Opus 4.5模型可能是一个心理上的分水岭,标志着模型能力刚好强到足以支撑长任务Agent形态,从Scaffolding(脚手架)迈向了Harness(运行框架) [18] Agent工程的核心组件:模型、框架与Harness - **模型**:即大语言模型,负责输入和输出token [9] - **框架**:是围绕模型的一层抽象,便于切换模型并封装工具、向量数据库、记忆等组件,强调灵活性和无偏好性,属于基础设施 [9] - **Harness**:比框架更有“主张”,内置了明确的设计立场和最佳实践,例如默认提供规划工具、上下文压缩和文件系统交互能力 [9] - 模型与Harness是“共同进化”的关系,两年前难以预见基于文件系统的Harness会成为最优解之一,因为当时模型未被充分训练过此类模式 [10] - 几乎所有做编程Agent的公司都在自研Harness,性能差异不仅来自模型,更来自对“模型如何在Harness中工作”的理解 [14] 构建Agent与传统软件开发的根本差异 - **逻辑来源不同**:传统软件的所有逻辑都写在代码里;而Agent如何工作的逻辑,很大一部分来自模型本身这个黑箱,具有非确定性 [27] - **理解与调试方式不同**:理解Agent行为不能仅靠读代码,必须通过追踪其在真实运行中的每一步执行轨迹,这使得Tracing(如LangSmith)成为核心工具 [27][28] - **“真相来源”不同**:传统软件的真相在代码中;Agent的真相是代码与执行轨迹的组合,轨迹成为可观察的事实载体 [29] - **测试方式不同**:传统软件可依赖程序化测试;评估Agent需要引入人类判断,在线测试比离线测试更重要,因为行为在真实输入下才会“涌现” [29][36] - **开发过程不同**:构建Agent是一个更偏迭代的过程,因为在发布前无法确切知道Agent会怎么做,需要更多轮次迭代来调整系统提示或指令 [31][32] Agent时代软件公司的机遇与挑战 - **现有公司的资产价值**:传统软件公司拥有的数据和API依然是高价值资产,能够被暴露给Agent使用并产生真实价值 [34][35] - **新增的竞争要素**:关于“如何使用这些数据”的指令变得至关重要,这部分知识过去由人类掌握,现在需要被系统化并固化到Agent中 [35] - **潜在的护城河**:记忆功能可能成为Agent应用的真正护城河,因为基于历史交互的学习能显著提升特定任务下的体验和性能 [49] - **人员与心态**:Agent工程的采纳可能呈现“年轻化倾向”,许多团队成员是更初级的开发者,没有传统软件开发方式的先入之见 [33] - **转型难度类比**:从本地部署软件转向云的转型过程中,成功公司不多,因为工程范式变化会重新筛选参与者,Agent时代的转型可能面临类似挑战 [33] Agent的关键技术与未来方向 - **上下文工程**:是长任务Agent突破的核心,涉及压缩、子Agent、技能、记忆等围绕上下文管理的技术 [18] - **文件系统访问**:现阶段长任务Agent几乎必须拥有文件系统(或虚拟文件系统)访问能力,这对上下文管理(如存储中间结果、实现压缩)至关重要 [22][53] - **代码执行能力**:给Agent配备安全的代码沙箱环境以执行脚本,比直接操作浏览器更成熟、通用,是能力栈的关键部分 [52][53] - **记忆与自我改进**:让Agent通过反思执行轨迹来更新自己的指令或代码,是一种重要的自我改进形式,但需确保安全和用户可接受 [45][49] - **用户界面演进**:需要同时支持异步管理(如管理多个长时间运行的任务)和同步对话(用于即时反馈和纠正)模式,并能查看Agent修改的“状态” [50][51]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
36氪· 2026-01-28 09:01
行业核心观点 - 2026年是AGI(通用人工智能)的“实干者”元年,其核心是具备自主规划、长时间运行和目标导向能力的“长程智能体”,标志着AI从“对话者”向“执行者”的范式转变 [1] - 长程智能体的核心价值在于为复杂任务提供高质量的“初稿”,其应用正从编码、Excel自动化等垂直领域向所有复杂任务流扩散 [1][5] - 智能体发展的第三个拐点已经到来,这得益于模型能力的增强与围绕模型构建的、有主见的“软件外壳”的共同进化 [2][11] 长程智能体的爆发与核心应用 - 长程智能体已开始真正发挥作用,其核心理念是让大语言模型在循环中自主决策,早期代表如AutoGPT [2] - 编码领域是长程智能体最快起飞和案例最多的应用场景 [2][5] - 其他杀手级应用场景包括:AI站点可靠性工程师、研究分析以及金融等领域中需要生成任务初稿或总结报告的工作 [5][6][7] - 在客户服务等场景,长程智能体可在后台运行,为转接的人工客服生成前因后果总结,提升效率 [7] 智能体架构:从框架到软件外壳 - 智能体架构正从通用的“框架”时代进入更有主见的“软件外壳”时代,后者是开箱即用、内置了预设规划工具等最佳实践的软件环境 [8][10][11] - 软件外壳的关键能力包括:上下文压缩、文件系统交互以及子智能体调度 [11][18] - 模型能力的提升与软件外壳工程设计的进步共同促成了当前突破,特别是推理模型的进步和一系列上下文工程原语的成熟 [11][12] - 在编码基准测试中,经过特定软件外壳优化的智能体性能显著超越原始模型,表明第三方开发者能在该层面挖掘巨大性能提升 [15][17] 编码智能体与通用智能体的演进 - 编码智能体可能是通用智能体的终极形态,因为“写代码”本身就是让计算机工作的极佳通用手段 [1][23] - 构建长程智能体的一个关键共识是必须赋予其文件系统访问权限,这有助于高效的上下文管理 [11][23] - 未来的竞争焦点将集中在围绕“让大语言模型循环运行”这一核心算法的上下文工程技巧上,例如记忆管理和上下文压缩的自动化 [22][23] 智能体开发与传统软件开发的差异 - 最大区别在于:智能体的逻辑部分存在于非确定性的黑盒模型中,而非全部写在可控代码里,因此必须通过实际运行来理解其行为 [25] - “追踪记录”成为智能体开发的“单一事实来源”和团队协作的核心支点,用于复现智能体内部每一步的上下文状态,这不同于传统软件仅在出错时查看日志 [25][26] - 智能体开发更具迭代性,因为其发布前的行为是未知的,需要通过在线测试和真实世界交互来不断调整 [27] - 现有软件公司因其拥有的数据和API,在接入智能体时具有巨大价值,但关于如何处理数据的“指令”部分可能是全新的 [29] 评估、记忆与自我改进 - 智能体的评估需要引入人类判断,其代理方式是使用“大语言模型作为评判者”,但关键在于确保其与人类判断对齐 [32][33] - 记忆功能是智能体形成竞争壁垒的关键,一个经过长时间磨合、内化了特定任务模式与背景记忆的智能体将极具价值 [36] - 智能体已具备通过反思追踪记录来自我改进的能力,体现在自动纠错、记忆更新等方面,实现了一种有人类在环的递归式自我改进 [33][34][35] 未来的交互与生产形态 - 理想的智能体交互是异步管理和同步协作的统一,用户需要能在两种模式间无缝切换 [37][38][40] - 未来的交互范式可能围绕“共享状态”展开,如同步查看和修改文件系统、云端文档中的同一份资料,Anthropic的Coworker是范例 [38] - 代码沙箱和命令行访问将是未来智能体的核心组件,文件系统访问权限被认为是所有智能体的标配 [41][42][44]
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]
LangChain 彻底重写:从开源副业到独角兽,一次“核心迁移”干到 12.5 亿估值
AI前线· 2025-10-25 13:32
LangChain 1.0 版本重写概述 - LangChain 宣布完成1.25亿美元融资,投后估值达12.5亿美元,成为独角兽公司 [3] - 经过3年迭代,LangChain 1.0正式发布,这是一次从零开始的重写,旨在使框架更精简、灵活和强大 [3][4] - 重写后的框架围绕循环内的工具调用Agent架构构建,模型无关性是其核心优势之一 [4] 公司发展历程 - LangChain 于2022年10月由机器学习工程师Harrison Chase作为副业发起,最初是一个约800行代码的单文件Python包 [5] - 项目灵感来源于Stable Diffusion发布后、ChatGPT问世前的时期,旨在解决工具碎片化和抽象不足的问题 [6] - 2023年4月公司正式成立,先后完成由Benchmark领投的1000万美元种子轮和由红杉领投的2500万美元A轮融资,A轮后估值达2亿美元 [7] - 目前是增长最快的开源项目之一,每月下载量高达8000万次,拥有118k GitHub star和19.4k个分支 [3] 产品架构与核心功能 - LangChain核心是一个"情境感知的推理型应用框架",包含组件与模块层以及端到端的链与应用层 [9] - 框架整合了超过700个不同的集成,涵盖10大类组件,每类有30到100个集成,支持Python和TypeScript两种版本 [10] - 坚持"模型与基础设施中立"路线,支持主流大模型和80种向量数据库,定位为连接不同技术触点的"粘合剂" [10] - 提供高层级接口,使开发者仅用5行代码就能开始使用RAG、SQL问答、提取等功能 [6] 重写背景与挑战 - 在高速集成阶段,项目积累了约2500个未解决问题和300-400个待处理PR,团队在2023年夏天收到大量负面反馈 [11] - 用户反馈的主要痛点包括易用性牺牲了定制化能力,高层级接口成为开发者推向生产环境时的阻碍 [11] - 为解决定制化需求,团队于2023年夏天开始开发LangGraph,并在2024年初正式推出,允许开发者以更底层的方式编排智能体逻辑 [12] LangChain 1.0 关键技术升级 - 以LangGraph为底座进行彻底架构重构,原生支持持久化、检查点恢复、人类在环与有状态交互等生产级需求 [18][27] - 引入统一的`create_agent`抽象,平衡强可控性与低门槛,让开发者用少量代码即可搭建经典的"模型-工具调用"循环 [19] - 新增中间件概念,允许在核心智能体循环的任意位置插入额外逻辑,支持动态提示词、动态工具和动态模型选择 [23][25][26] - 引入更规范的content blocks以统一不同模型的输入/输出结构,并精简代理选项以降低选择与调参成本 [27][30] 产品线与发展重点 - 公司目前有三条主要产品线:LangChain开源框架、LangGraph和闭源工具LangSmith [13] - LangChain开源框架的核心工作是生态系统的规模化管理,需要与大量合作伙伴协作 [13] - LangGraph当前聚焦于可扩展性、智能体集成开发环境与调试能力的提升 [13] - LangSmith作为公司主要收入来源,专注于LLM运维领域的可观察性和监控功能,团队正致力于推进其可扩展性 [12][13]
速递|开源Agent框架开发商LangChain完成1.25亿美元融资,估值突破12.5亿美元
Z Potentials· 2025-10-24 16:18
融资与估值 - 公司本周一宣布完成1.25亿美元融资,估值达到12.5亿美元 [2] - 公司在2023年4月以Benchmark领投的1000万美元种子轮融资正式成立 [4] - 一周后,红杉资本主导的2500万美元A轮融资将公司估值推至2亿美元 [5] 投资方与背景 - 本轮融资由IVP领投,新晋投资方CapitalG和Sapphire Ventures加入,现有投资机构红杉资本、Benchmark和Amplify继续跟投 [3] - 公司始于2022年,由机器学习工程师Harrison Chase创建的开源项目 [3] 产品与技术发展 - 公司解决了利用早期大语言模型构建应用的多重难题,包括网页搜索、API调用和数据库交互 [3] - 公司已发展成构建智能体的平台,并推出了核心产品的全面升级,包括Agent构建工具LangChain、编排与上下文/记忆工具LangGraph,以及测试与可观测性工具LangSmith [5] 市场地位与社区影响 - 公司在开源开发者中保持超高人气,在GitHub上拥有11.8万星标和1.94万复刻分支 [6] - 公司被描述为AI时代的早期明星项目 [3]
速递|前Scale AI员工创业,AI协调平台1001 AI种子轮获900万美元,掘金中东北美关键实体产业
Z Potentials· 2025-10-22 10:38
融资与估值 - 公司完成1.25亿美元融资,估值达到12.5亿美元 [2] - 本轮融资由IVP领投,新投资方CapitalG和Sapphire Ventures加入,现有投资机构红杉资本、Benchmark和Amplify继续跟投 [2] - 公司在2023年4月以Benchmark领投的1000万美元种子轮正式成立,一周后红杉资本主导的2500万美元A轮融资将其估值推至2亿美元 [2] 公司发展与产品 - 公司始于2022年,是一个由机器学习工程师创建的开源项目,旨在解决利用早期大语言模型构建应用的多重难题 [2] - 公司已发展成为构建AI Agent的平台,并推出了核心产品的全面升级,包括代理构建工具LangChain、编排与上下文/记忆工具LangGraph,以及测试与可观测性工具LangSmith [3] - 公司在开源开发者中保持超高人气,在GitHub上拥有11.8万星标和1.94万复刻分支 [3]