LangChain
搜索文档
深度|LangChain联合创始人:模型不再是主角,智能体时代的“Harness”正在重塑一切
Z Potentials· 2026-04-11 14:37
文章核心观点 - 人工智能领域的前沿正从模型本身转向围绕模型的整套技术栈,特别是使AI智能体(Agent)能在现实世界中可靠工作的“控制框架”(Harness)[2] - AI智能体正从简单的基于提示的系统,演变为能够规划、使用工具、编写代码、管理文件并具有长期记忆的复杂软件,这催生了对新型基础设施的需求[2][5] - 推动智能体近期加速发展的关键因素有两方面:模型能力变强,以及行业发现了让模型发挥最佳性能的核心“控制框架”原语(Harness Primitives)[2][10] - 对于AI构建者而言,真正的差异化价值和“护城河”不在于快速变化的技术框架本身,而在于特定领域的知识(Knowledge)、工具(Tool)和技能(Skill)[4][66] 智能体的演进与分类 - 第一代智能体(如基于ReAct理念或AutoGPT)的核心是让大语言模型在循环中运行并调用工具,但实际效果不佳,因此需要在其周围构建“脚手架”以提升可靠性和可预测性[9] - 随着Claude等强大模型的出现以及控制框架的成熟,智能体变得更为可靠,导致在2023年底至2024年初假期期间,大量构建者开始利用这些核心原语为各种用途构建智能体[8][10] - 当前智能体主要分为两类:1) **对话式智能体**,用于客户支持等低延迟、语音交互场景,调用工具较少;2) **长周期智能体**,可进行规划、保持连贯性,通常表现为编码智能体,是当前能力最强的类型[11][12] - 编码智能体效果突出的原因:代码是通用且强大的工具;同时,大模型本身在代码、Bash和文件编辑上进行了大量强化学习训练,这是它们表现最好的领域[11][12] 控制框架与模型的关系 - **控制框架**是决定模型如何与环境交互的关键,它包含模型可使用的一套工具、子智能体、技能、提示缓存、上下文压缩等通用功能[18][19] - 控制框架至关重要,它让智能体能够真正落地,其重要性甚至可能超过模型本身,许多成功的终端用户产品(如Manus、Claude Code)的核心优势在于其出色的控制框架[3][15][16] - 模型与控制框架的未来关系尚不确定,尽管许多团队同时构建两者,但并未观察到模型通过强化学习被专门训练为擅长其自身控制框架的明确趋势[17] - 当前阶段,控制框架与其上层的用户界面耦合度很高,许多应用是两者的有趣组合[16] 现代智能体架构的核心组件 - **系统提示**:驱动智能体行为的核心,类似于人类执行任务的标准操作程序,通常是框架内置部分与用户定制化内容(如指令、技能)的融合[20][21] - **规划工具**:一种特殊的工具,用于制定任务计划(通常是一系列带状态的待办事项),其调用行为可将计划内容放入智能体的上下文窗口,充当“思维草稿本”[22][23] - **子智能体**:用于实现上下文隔离,主智能体将任务字符串交给子智能体,后者启动一个干净的新上下文窗口执行任务后返回结果,但增加了智能体间通信的复杂性[25][26] - **文件系统**:让大语言模型能够自主管理其上下文,通过读取/写入文件来选择加载内容、进行持久化存储、卸载大型工具调用结果或存储摘要,是上下文管理的升级版[28][30] - **技能**:一组文件(通常包含一个skill.md文件),内含如何完成特定任务的指令,采用“渐进式披露”原则,仅在智能体需要时才被加载,是管理上下文窗口的另一种方式[34] 内存与上下文管理 - **上下文压缩**:当累积的上下文达到阈值时,将历史记录(保留最近的关键消息)浓缩为更小的摘要,以控制令牌消耗和成本,同时将原始消息转储到文件系统以备查询[36][37] - **内存类型**:1) **短期记忆**:在特定会话线程内的记忆;2) **长期记忆**:包括语义记忆(类似RAG)、情景记忆(过去的交互记录)和程序性记忆(关于“如何做”的指令,即智能体的配置)[40][41] - 程序性记忆(系统提示、技能、工具)是智能体定义的核心,以文件形式表示时,智能体可通过修改这些文件来实现“学习”[41] - 未来智能体架构可能呈现为一个同步的对话式智能体,在后台发起多个长周期运行的异步智能体,由不同的内存模块驱动[43] 沙盒与计算层 - **沙盒**对于智能体至关重要,主要用途是安全地编写和运行代码,无论是预加载的脚本还是智能体自行生成的代码,都需要隔离环境以执行不受信任的操作[46][47] - 智能体与沙盒的交互模式主要有两种:1) 将智能体安装在沙盒内部运行;2) 智能体运行在外部,将沙盒作为一个工具来调用,目前两种方式的使用比例大约各占一半[48] - 沙盒与安全相关,例如可通过在沙盒外部设置代理层来注入API密钥,防止沙盒内的智能体通过提示注入攻击窃取敏感信息[50] LangChain公司及其产品演变 - LangChain最初是一个开源框架,提供抽象层和“操作手册”式的链,旨在降低大语言模型应用的入门门槛[57] - 随着用户需求向生产环境推进,公司构建了**LangGraph**,作为一个更底层、非预设、具备生产级能力的智能体运行时,支持持久化执行、流式处理、循环以及内存持久化[57][58] - **LangChain 1.0** 聚焦于“循环运行并调用工具”这一变得可靠的模式,并在LangGraph之上重构,成为一个高度可配置的底层原语,用于构建自定义控制框架[59] - **DeepAgents** 是公司推出的一个“开箱即用”的控制框架,打包了系统提示、规划工具、文件系统、子智能体等现代智能体核心组件[32][59] - 商业产品**LangSmith**的核心是“可观测性++”,因为智能体行为在运行前不可预知,可观测性(包括单次运行、追踪和会话线程的捕获)比传统软件更为重要,并与评估、部署等环节紧密相连[60][61] - 公司近期完成了1.25亿美元融资,未来将加倍投入可观测性++,并致力于构建一个完整的智能体工程平台,包括部署、无代码开发等[65] 行业趋势与稳定层 - 智能体的“脚手架”和具体功能特性仍在快速变化,但控制框架的底层模式(循环运行、调用工具、与文件系统交互、编写代码)相对更稳定[43] - 更底层的基础设施组件可能更具稳定性,例如:**可观测性**、**评估**、**沙盒**以及用于部署长周期有状态应用的**状态化**平台[44] - 模型上下文协议作为一种以标准化格式暴露API的方式,其核心价值被认为非常有用[44] - 对于企业而言,最重要的资产是特定领域的指令和工具本身,无论它们最终被打包成技能、子智能体还是定制化工作流,这些资产都具有持久价值[42][43]
一个人用AI从零做到月入1万美元:完整工具链拆解
深思SenseAI· 2026-04-07 14:45
行业趋势:独立开发者与微型SaaS的崛起 - 2026年预计有44%的盈利SaaS产品由单人开发完成[2] - 独立开发者通过“一个人+AI+开源工具”的模式,能够实现可观的月收入,例如月入2.8万美元或8个月内从月入2000美元增长至5万美元[2][27] - 软件产品的启动成本正趋近于零,技术门槛大幅降低,竞争核心从技术能力转向市场洞察与选题能力[30] 技术栈与开发流程革新 - **基础设施搭建**:使用如Open SaaS(GitHub超过1万星)等开源脚手架,可在十分钟内集成用户登录、Stripe支付、邮件系统等核心基础设施,替代了传统2-3周的开发时间或2000-5000美元的外包费用[6][7][9] - **数据库与后端**:Supabase(GitHub 8万星)提供集成的PostgreSQL数据库、认证、文件存储等服务,免费层即可支持最小可行产品[10][11] - **AI辅助开发**:通过Repomix(GitHub 2.3万星)将整个代码仓库打包为AI友好文件,使Claude能深度理解项目上下文,提升代码生成质量[12][14] - **AI功能集成**:使用Flowise(3.5万星)或LangChain(13万星)为现有产品添加AI层,可将产品从“能用”升级为“好用到离不开”,案例显示497美元的API投入在8个月内带来了25倍的收入增长[19] - **部署与支付**:使用Vercel进行一键部署,并通过Stripe(已集成于Open SaaS)处理收款,支持订阅制、一次性买断等定价模式[20][21] 成本与效率的范式转变 - 2020年开发一个SaaS产品总投入约为1万至2.5万美元,开发周期3-6个月[23] - 2026年,主要成本仅为Claude Pro每月20美元订阅费,其他工具多为免费开源,开发周期缩短至1-2周,总投入仅20-50美元[23] - 开发成本降低了500倍,时间缩短了10倍[24] - 可行的增长路径为:首月10个付费用户(月入290美元),第四个月达到350个付费用户(月入10150美元)[24] 市场策略与成功案例 - 成功的共同模式是:找到痛点、开发最小可行产品、获取首批付费用户、快速迭代[29] - 定价策略建议早期采用一次性买断(如终身授权99美元),以在Product Hunt等平台制造冲动消费,快速验证市场需求[21] - 真实案例包括:单人开发一组微型SaaS产品月入2.8万美元;4年内从零做到月入10万美元;8个月内通过添加AI功能将月收入从2000美元提升至5万美元;以及Lovable.dev在上线初期获得10万用户,一年后被Wix以8000万美元收购[26][27][28]
AI智能体不只靠模型进化:三层学习架构详解
深思SenseAI· 2026-04-07 08:05
文章核心观点 - LangChain创始人Harrison Chase提出,AI智能体的“持续学习”应涵盖三个独立层面:模型层、框架层和上下文层,仅聚焦于更新模型权重可能会错过80%的优化空间 [2] - 智能体系统的进化需要系统层面的持续优化,而不仅仅是依赖更好的基础模型 [2] - 大多数团队的最优策略是优先优化上下文层,其次是框架层,最后考虑成本高昂的模型层 [30] - 真正优秀的智能体系统应具备自我进化的能力,而非被动等待模型升级 [35] 三层架构 - 智能体系统可拆分为三层:模型层、框架层和上下文层 [4] - **模型层**:指模型权重本身,如Claude Sonnet、GPT-4等底层大模型 [4] - **框架层**:指驱动智能体运行的所有代码和基础配置,包括指令、工具调用链等逻辑,为所有实例共享 [5] - **上下文层**:指独立于框架的配置信息,如指令、技能、工具,可针对不同用户、团队或组织进行个性化设置 [5] - 三层架构的优势在于能精确诊断问题所在,明确是模型能力不足、框架逻辑问题还是上下文信息缺失 [8] 各层学习的特点与对比 - 模型层学习:主要指更新模型权重,方法包括有监督微调、强化学习等,但面临“灾难性遗忘”的核心难题 [9] - 模型层更新成本高、速度慢(周期可能长达数周)、不可人工审查,但影响上限最高 [13] - 框架层学习:指优化围绕模型的代码,包括提示词、工具调用方式和执行流程,其更新是代码级别的,可人工审查、回滚和进行版本控制 [15][16] - 上下文层学习:涉及对指令、技能、工具等“记忆”的更新,是当前最被低估的一层 [17] - 上下文层更新成本最低、速度最快、可人工直接检查和修改,但影响上限中等 [13] - 模型层如同“大炮”,上下文层如同“手术刀”,不同场景需要不同工具 [14] 上下文层学习的深度解析 - 上下文层学习可在不同层级发生:智能体级别、用户级别、团队/组织级别,且这些层级可以混合使用 [20] - 这使得智能体能够实现“千人千面”的服务体验,而无需为每个客户训练专用模型,成本相差数个数量级 [20] - 上下文层的更新有两种模式:**离线批处理**(事后回顾执行记录以更新)和**实时更新**(在执行任务过程中即时更新记忆) [21][23] - 记忆更新的“显性程度”是一个重要维度,未来趋势是智能体应能自动识别并记住有价值的信息 [23] 追踪记录的核心作用 - **追踪记录**是智能体完整的执行路径,是所有层面持续学习的“燃料”,没有它则学习无从谈起 [24][25] - 同一份追踪记录可在三个层面分别被利用:用于模型训练、框架优化或上下文更新 [26] - 构建或优化智能体系统的首要建议是建立完善的追踪记录收集机制 [28] 实际应用策略与行业启示 - 根据对比表,模型层影响上限最高但更新成本高、速度慢;框架层居中;上下文层成本低、速度快、可审查 [29] - 对于大多数团队,应优先做好上下文层,再优化框架层,最后考虑模型层,因为上下文层的投入产出比最高 [30] - 通用智能体平台则需要三个层面同时投入,例如OpenAI同时优化Codex模型、产品逻辑并支持用户自定义指令 [30] - 更强的模型解决的是通用能力问题,而框架和上下文层解决的是具体场景的适配问题,两者缺一不可 [31] - 评估智能体系统时应关注:是否持续变聪明、学习发生在哪一层、是否收集利用追踪记录、三层之间是否形成联动飞轮 [32][33] - 行业常见的误区是将所有问题归结为“模型不够好”,而忽略了框架和上下文层可能存在的巨大优化空间 [33][34]
更高权限的 AI Agent 需要怎样的 AI Infra?
机器之心· 2026-03-29 09:29
Agent 作为「带执行面的混合软件系统」的能力边界有何特点? - 新一代高权限 Agent 如 OpenClaw 已从对话工具演变为可接入文件系统、命令行、浏览器、消息通道与网络服务的系统对象,能够读写状态、调用工具并在授权边界内执行复杂任务,其应用扩展至多个执行场景 [2] - 行业实践显示,Agent 正被直接嵌入企业核心业务流程,例如 LangChain 的 GTM agent 可围绕 Salesforce 线索自动触发流程,跨多个来源收集信息并生成销售草稿,表明 Agent 已成为销售流程中的执行节点 [3] - 在研发领域,Agent 正成为基础设施,行业总结其共性架构包括隔离的云沙箱、精选工具集、子智能体编排以及与 Slack、GitHub 等工作流的集成 [3] - 业界对 Agent 的定义正从“基于大语言模型的自主智能体”向“完整系统”演进,强调 Agent 是由模型、工具、运行状态与环境反馈共同构成的混合软件系统,而不仅仅是模型能力的外延 [4] - 企业实践进一步将 Agent 定义为“可部署、可约束、可编排的执行系统”,其核心在于模型与工具、运行环境及流程控制机制的协同工作 [5] - OpenAI 在相关工作中将重点放在环境设计、意图设定与反馈回路等执行框架(Harness)上,而不仅仅是模型本身 [6] - 随着 Agent 承担系统执行功能,其风险已从“说错”升级为“做错”,具体表现为越权执行、误触发流程、敏感资源暴露及在错误边界内代表用户行动 [7] - 以 OpenClaw 为例,公开漏洞显示恶意网站可尝试通过本地网关、配对机制等路径接管智能体,凸显了执行层面的安全风险 [8] - 美国国家标准与技术研究院已将部署环境中的访问约束、运行监测与安全评估列为智能体系统安全的重点问题 [8] - 对于高权限 Agent 的治理重点已从减少模型错误输出,转向约束访问边界、限制执行范围并降低失控影响,涉及权限、集成、网络、运行时与隔离环境等多个层面 [9] - 微软将 OpenClaw 类 Agent 视为“带持久凭证的不受信代码执行”,建议仅在隔离环境中使用低权限、非敏感凭证进行评估 [9] - 官方模型威胁框架将“恶意技能窃取凭证”列为严重风险,并将运行时、网关、集成、市场与 MCP 服务器等纳入威胁建模,建议采用技能沙箱与凭证隔离等措施 [9] 不以真实世界作为训练场的 Agent 需要什么样的评估体系? - 对于能操作网页、图形界面和操作系统的智能体,真实网站与系统并不天然适合作为直接训练场,因此环境设计正更集中地强调可复现、可验证与可隔离 [9] - 评估体系需确保任务状态能够稳定重置、执行结果能够清晰判定、试错行为能够被限制在受控边界内 [9] 更高负载的 Agent 需要怎样的基础设施? - 新的 Agent 基础设施(Infra)设计需考虑沙箱、权限、凭证隔离和运行时控制,这些已成为默认前提 [2] - 行业在总结内部编码智能体时,将隔离的云沙箱、精选工具集、子智能体编排以及工作流集成视为共性架构,说明基础设施需支持 Agent 成为研发流程中的执行基础 [3]
Context 还不够,Harness 才是 Agent 工程优化的正解?
机器之心· 2026-03-22 10:36
Agent工程范式从Context Engineering向Harness Engineering演进 - 行业关注重点正从AI的生成能力转向执行能力,长程任务中的上下文挤压、工具开销和业务语境缺口问题凸显,单一的Context Engineering已难以支撑Agent稳定运行,围绕执行环境、约束机制和反馈回路设计的Harness Engineering受到更多关注[1] - Harness Engineering被视为继Prompt Engineering、Context Engineering之后,Agent工程进一步走向执行框架设计的新信号,其核心判断是决定Agent落地效果的关键已不只是模型能力,更在于系统能否提供清晰边界、自动校验和可复用的纠错流程[5] - 新的工程分工正在形成,模型负责生成与执行,人类则更多负责设定约束、补充反馈并持续优化运行框架[6] Context Engineering的局限性 - 随着AI应用从单轮问答走向多步执行与长链路任务,单靠提示词(Prompt Engineering)已难以覆盖真实任务中的上下文缺失、信息噪声与工具协同问题[7] - Context Engineering的核心是系统化设计推理所需的信息供给,包括检索、记忆、工具反馈与上下文组织,以减少执行偏移和结果失真,曾被Andrej Karpathy认为是工业级LLM应用的关键[8] - 但在更长链路、更高复杂度的真实任务中,Context Engineering的局限性集中暴露,包括受限于上下文注意力预算、工具接入和协议开销挤压有效认知空间,以及难以自动补齐关键的业务定义和组织隐性知识[8] Harness Engineering的价值与成效 - Harness Engineering的价值不依赖于更换底层模型,可直接体现在系统层优化上,例如LangChain团队在固定模型不变的前提下实现了Agent表现的明显提升[6] - 具体案例显示,LangChain的Deep Agents团队在2025年2月保持模型为GPT-5.2-Codex不变,仅通过调整harness,就将coding agent在Terminal Bench 2.0上的得分从52.8%提升至66.5%,排名从Top 30附近跃升至Top 5[6] - 其改进方法是借助trace在大规模运行中识别失败模式,再针对性回写到harness中,这意味着Harness Engineering将“调试模型”转化为“调整系统”,通过可观测性与闭环迭代持续放大模型已有能力[7] - 行业观点认为,当Agent反复犯同类错误时,关键在于让系统更快暴露错误、定位错误并推动修正,这正是Harness Engineering的实践范畴[5]
模型不再是关键?LangChain 创始人:真正决定Agent 上限的是运行框架
AI前线· 2026-03-13 13:01
行业趋势:AI应用从单次生成迈向持续执行 - AI应用正从“单次生成”迈向“持续执行”,下一代软件系统将围绕全新的“智能体编排”架构展开,该架构负责让智能体自主规划、调用工具、编写代码、管理文件、压缩上下文、调度子智能体,并在长时程任务中保持连贯行动 [2] - 简单调用LLM API、套一层提示词就能做产品的时代已经走到尽头,整个软件基础设施层正在被重新书写 [2][3] 智能体架构的核心组件 - 现代智能体拥有四大核心统一组件:系统提示词、规划工具、子智能体、文件系统 [3][27] - **系统提示词**:驱动智能体,告诉它该做什么,类似于“标准作业流程”,通常由框架内置部分和用户定制部分合并而成 [18][20] - **规划工具**:生成计划并写入文件,作为智能体的“思维草稿本”指导行动,主流方式是将计划存在文本文件中供智能体参考,而非强制执行严格步骤 [21] - **子智能体**:用于隔离上下文,主智能体可启动子智能体执行任务并仅返回结果,其核心挑战在于智能体间的有效沟通 [22] - **文件系统**:本质是让LLM自己管理上下文窗口,用于卸载超大工具调用结果、进行摘要和持久化存储,关键是以文件系统接口暴露给LLM [25][26] 智能体的分类与发展 - 智能体主要分为两类:一类是低延迟、少调工具的**对话式智能体**;另一类是红杉资本提出的可长时间运行、做规划、保持连贯性的**长时程智能体** [11] - 长时程智能体最终大多表现为**编码智能体**,因为代码通用性强,且模型最擅长处理代码、Bash命令和文件编辑 [11] - 未来趋势是两类智能体形态融合,对话智能体在前台,后台启动异步运行的子智能体处理长时程任务,最终收敛到同一框架 [12] 模型与框架的关系 - LangChain创始人认为“框架才是未来,模型终将走向商品化”,框架是模型与环境交互的整套方式,是一套通用工具集 [3][14][16] - 框架极其重要,许多终端产品(如Manis、Claude Code)的核心秘诀在于其框架,而框架与上层UI之间的耦合非常紧密 [14][15] 智能体的其他关键能力与概念 - **技能**:本质是一堆文件(如skill.md),包含完成某事的指令或可执行脚本,采用“渐进式披露”原则,仅在LLM需要时加载,是让其自己管理上下文窗口的关键方式 [30] - **上下文压缩**:当上下文积累过多时进行精简,常见做法是保留最近N条消息,将更早的消息摘要后存入上下文,同时将原始完整消息存进文件系统 [32][34] - **记忆分类**:分为**语义记忆**(关于世界的事实,如RAG)、**情景记忆**(过去的交互记录)和**程序记忆**(“如何做某事”的指令,即智能体的配置如系统提示词、技能、工具) [35][38] - **沙盒**:智能体编写并运行代码所必需的安全执行环境,核心价值是提供架构上的隔离,防止提示注入泄露密钥等安全问题 [9][41][47] LangChain的产品演进与战略 - LangChain从早期开源框架,演进为包含LangGraph、Deep Agents、LangSmith及Agent Builder的“生产级智能体运行时” [4] - **LangChain 1.0**:彻底聚焦于“让LLM循环运行+调用工具”的核心模式,在LangGraph之上重构,保持极度中立和高度可配置 [52] - **LangGraph**:面向图结构工作流的框架,提供更强的结构化能力和可靠性,被视为“智能体运行时” [8][52] - **Deep Agents**:开箱即用的完整框架,内置规划工具、文件系统等现代智能体核心组件 [27][52] - **LangSmith**:核心是可观测性增强版,因为智能体输入范围广且LLM非确定性,使得运行轨迹的可观测、评估、调试比传统软件重要得多 [4][53][57] - 公司刚完成1.25亿美元新融资,下一步核心方向是全力投入商业化表现最强的可观测性,并补齐部署与无代码能力,朝完整的智能体工程平台推进 [4][61][63] 行业竞争与差异化壁垒 - 对于AI开发者而言,最大的差异化在于**指令、工具和技能**,即将行业流程知识编码成自然语言并配备相应工具,而非过度绑定于特定框架或模型 [9][37][64] - 企业真正的壁垒在于将行业知识转化为“指令+工具+技能”,这些价值不会随技术脚手架快速迭代而消失 [9][37]
OpenClaw如何影响金融业智能体应用|金融与科技
清华金融评论· 2026-03-10 18:16
文章核心观点 文章核心观点是:以OpenClaw为代表的新一代AI智能体框架实现了从“对话AI”到“执行AI”的范式跃迁,其开源、通用、主动执行的特性对软件行业和资本市场产生了巨大冲击,并正在深刻影响金融行业的人工智能应用路径。尽管智能体在金融领域的应用仍面临模型准确性、执行可控性等挑战,但通过“目标驱动”决策、业务流程再造和数据治理,智能体将推动金融行业AI应用从“被动响应”走向“主动决策”,并进入复杂业务流程的“深水区”[3][8][18][19]。 根据相关目录分别进行总结 智能体的定义与发展历程 - 智能体(Agent)的出现是为了弥补大语言模型(LLM)的局限(如输出幻觉、数学计算弱等),使其具备连接现实世界的能力,实现从“对话框”到“实际生产力”的跨越[4] - 业界普遍认为,一个AI智能体应具备环境感知、自主规划、工具使用、记忆持久化和行动执行能力,通过多步骤推理与外部环境交互,自主完成复杂任务[5] - 智能体发展经历了多个阶段:从LangChain连接本地知识库,到OpenAI发布ChatGPT插件和GPTs,再到中国厂商推出GLMs、扣子(Coze)等低代码开发平台[6] - 早期开源智能体框架多为预设逻辑的“流水线”,任务完成率不到50%,且缺乏长思考和多步骤执行能力[7] - 随着模型能力提升和行业发力,智能体进入爆发期,标志性事件包括Anthropic开源Model Context Protocol(MCP)以及中国团队发布通用型自主AI智能体Manus[7] OpenClaw的创新与市场影响 - OpenClaw是一个开源AI智能体框架,本质上是可在设备上运行的AI操作系统,能连接各类即时通讯工具和生产力工具,让用户通过聊天软件指挥其执行写代码、发邮件等真实操作[8] - OpenClaw解决了此前智能体的三大痛点:缺乏跨端跨场景通用性、记忆缺失与有限上下文窗口、只能被动响应缺乏主动执行机制[9] - 其核心创新在于围绕模型构建标准化执行环境,通过编辑Markdown文件管理指令和记忆,并引入“心跳”机制让智能体能定期检查并自主执行任务清单,从“被动响应”转向“主动行动”[9] - OpenClaw通过“技能”(SKILL)文件封装完整工作流,几十行提示词即可执行复杂操作,实现了无需人类干涉的通用执行能力[9] - OpenClaw的发布引发了资本市场剧烈震荡:2026年初,美股软件板块经历自2000年互联网泡沫以来最剧烈的结构性抛售,Shopify、Salesforce、Adobe等公司股票下挫20%-50%,行业市值蒸发超1万亿美元[10] - 市场担忧智能体将替代“软件功能+软件操作者”,冲击传统SaaS生态,并进一步炒作“人工智能对人类替代”概念,相关研究报告加剧了行业焦虑[10] - 发布后,腾讯云、阿里云、火山引擎等国内云厂商迅速推出部署服务,国内科技公司也推出了集成自家工具的各类“Claw”变体[11] 金融行业AI智能体应用现状 - 金融行业作为知识密集型行业,在生成式AI兴起初期即投入大量资源,早期尝试训练专有大模型,后因无法与科技公司竞争而转向智能体开发[13] - 初期应用主要为“大模型+向量知识库”模式,例如摩根士丹利在2023年推出的投研助手,能检索数十万份报告生成信息[13] - 随着模型能力进步,金融机构转向将大模型嵌入现有业务流程,开发针对特定场景的AI智能体,对重复性、标准化程度高的工作进行改造[14] - 应用案例广泛:摩根大通推出LLM Suite平台,为20万名员工提供投行方案设计、合同生成、邮件处理等智能体[15];中国工商银行、建设银行推出授信审批智能体,可自动生成公司客户调查报告[15];瑞士银行推出AI Co-pilot平台分析数据并生成目标企业名单[15];贝莱德在阿拉丁平台部署财富顾问智能体,生成个性化营销报告[15] - 多家金融机构在智能体开发中与上游大模型厂商深度合作,例如工商银行与智谱、华为合作,建设银行与阿里云合作开发编码助手,高盛与Anthropic驻场研发交易与KYC智能体[16] OpenClaw对金融行业的影响与挑战 - OpenClaw在金融行业的应用仍面临挑战:首先,智能体框架无法解决大模型自身的弊端,如输出不准确(在测试中仍出现错误引用和虚构来源)[17];其次,智能体执行存在不确定和不可控性,有报告称其出现错误删除或发送文件且指令无法停止的情况[17];最后,其多智能体协作框架存在安全漏洞,研究中发现了512个安全漏洞[17] - 尽管如此,以OpenClaw为代表的新一代智能体框架的技术路线已被业界广泛接受,将成为金融行业AI应用的主线趋势[18] - 其影响主要体现在三方面:推动金融行业智能体从基于固定规则的“被动响应”转向“目标驱动”的“主动决策”,可在智能投顾、风险管控等场景发挥更大作用[18];加速金融业务能力的“技能化”封装与敏捷迭代,例如财务分析智能体核心功能只需不到100行代码,内控、风控规则可被封装为独立技能模块复用[19];推动金融智能体走向处理跨工作流、跨业务线的复杂业务流程“深水区”,利用其原生多智能体协同能力开发更复杂应用[19] 金融行业AI智能体发展的对策路径 - 加速流程再造,对业务流程进行人工智能原生化改造:金融机构应建立适配AI环境的流程,以智能体可执行为前提反向设计,围绕“人机协同决策”而非“人工逐层审批”重塑流程链条[21] - 完善数据治理,打造人工智能时代的数据核心竞争力:私域数据已成为核心竞争壁垒,金融机构应建立企业级数据仓库,统一数据目录,并系统沉淀业务规则、专家经验等隐性知识,构建智能体知识图谱与向量数据库[21] - 前瞻布局算力基础设施,加强算力调度灵活性:智能体应用将导致算力消耗指数级增长,OpenClaw多智能体协作所需的token是传统“流式”对话的50-150倍[22];金融机构需增加算力冗余,并探索灵活调度方式,例如通过“算力杠杆”让私有环境智能体处理敏感数据后,交由公有云智能体继续处理[22] - 积极拥抱开源,共建行业人工智能公用基础设施:为应对技术折旧风险,应利用开源生态打造敏捷技术底座;建议由大型金融机构的金融科技子公司共同打造金融行业AI公共基础设施,并探索建立智能体技能交易市场,将通用能力组件化并向中小机构开放赋能[23]
超越 Chatbot:Long-horizon Agent 如何重新定义 AI 产品形态|Jinqiu Select
锦秋集· 2026-02-05 19:40
AI Agent产品形态的范式转移 - Chatbot作为主流AI产品形态已显疲态,其“一问一答”的即时响应模式难以解决复杂问题,本质是产品形态而非模型能力的问题 [3][4] - 真正有价值的日常工作需要“长程执行者”,即能够自主进行多步骤决策、调整策略并花费时间完成任务的AI Agent [5] - 行业转折点出现在2025年年中,标志是Claude Code爆发式增长、Deep Research类产品涌现以及Manus等SuperAgent流行,AI从“聊天框里的打字机”转变为“能够独立作业的数字员工” [7] Long-horizon Agent(长程智能体)的核心与应用 - Long-horizon Agent定义为能在数分钟至数小时内自主运行的智能体,其核心是让大语言模型在循环中自主决定下一步行动 [16][17] - 该类型智能体具备三个核心特征:运行时间更长、拥有自主决策能力、产出“初稿”而非最终产品 [20] - 当前典型应用场景包括:Coding(如Claude Code、Cursor)、AI SRE(如Traversal的AI SRE Agent)、研究与报告生成(如Deep Research类产品)、高级客户支持 [20] AI Agent技术栈的演进:从Model到Harness - 技术栈分为三层:最底层是Model(模型),由OpenAI、Anthropic等厂商提供;中间层是Framework(框架),如LangChain,提供对工具、记忆等组件的抽象;最上层是Harness(运行时套件) [22][23] - Harness是“开箱即用”的Agent运行时环境,内置了构建Long-horizon Agent所需的最佳实践,如规划能力、上下文压缩、记忆管理、子任务协调和预设提示词模板 [11][23] - 行业竞争重心正从Framework转向Harness,因为当模型能力跨越关键阈值后,真正的竞争在于谁能提供更好的、内置最佳实践的运行时环境 [11][24] AI Agent发展的三个阶段 - 第一阶段为简单的Prompting和Chaining时代,模型仅有基础的文本输入输出能力 [28] - 第二阶段为Cognitive Architecture时代,模型开始具备工具调用和一定规划能力,开发者需构建复杂的“脚手架”来支撑 [30] - 第三阶段为Long-horizon Agent时代(2025年中至今),模型能力足够强大,行业焦点从构建“脚手架”转向提供“Harness”,以优化上下文工程 [31][32] 2026年关键技术方向与核心竞争力 - 模型能力已跨越关键阈值,推理、工具调用和长上下文处理能力使Long-horizon Agent从演示变为实用工具 [33] - Context Engineering(上下文工程)成为核心竞争力,其本质是构建动态系统,在正确时机以正确格式向模型提供正确的信息和工具 [29][34] - 在Agent开发中,Trace(运行完整记录)取代代码成为新的“真相来源”,这使得可观测性工具变得至关重要 [36][41] - Memory(记忆)能力可能成为产品的关键护城河,能够从运行记录中学习并自动更新指令的Agent将具备巨大优势 [42][43] - 文件系统访问能力是Long-horizon Agent的标配,对上下文管理有巨大帮助,且未来的通用Agent很可能都具备强大的编码能力 [44][46][47]
寻找桌面Agent红利下的卖铲人
华尔街见闻· 2026-01-31 17:17
文章核心观点 - 开源桌面智能体OpenClaw的爆火,标志着AI“替人打工”接近现实,并可能成为桌面智能体的“ChatGPT时刻”,引发了从软件、模型到硬件的全产业链连锁反应 [1][8] - 行业竞争格局正从“千模大战”转向“千端大战”,桌面智能体作为凌驾于App之上的“影子管家”,其发展将推动软件、模型、硬件及云服务等多个层面的变革与机遇 [8][20] - 在桌面智能体生态中,国产大模型厂商(如MiniMax、Kimi)和云服务商(如阿里云、腾讯云)已成为关键的“卖铲人”,率先受益;同时,系统厂商(如苹果、微软、华为)和硬件厂商(如华强北主机、边缘计算盒子)也正积极布局,一场软硬结合的桌面控制权争夺战即将打响 [4][7][10][18][20] 软件层:桌面智能体应用爆发与竞争 - OpenClaw是一款能深度访问用户电脑系统、文件和应用,并具有长期记忆上下文的桌面智能体,可自主完成比价、邮件处理、预订航班等复杂或日常任务,被形容为“24小时待命贾维斯” [1] - OpenClaw的爆火带动了桌面智能体赛道的热度,Coze Workflow、阶跃AI桌面伙伴等产品纷纷上线,行业进入“千端大战”阶段 [8] - 桌面智能体的运行模式是“自主循环”,为完成复杂任务会进行多次自我对话和代码尝试,导致单次任务消耗的Token量极大,远超传统聊天机器人 [5][6] - 第三方开源智能体预计将如雨后春笋般爆发,但面临系统厂商(如苹果、微软、华为)将智能体能力内化至操作系统底层的竞争,其在中国手机和PC市场的渗透空间可能因此被收窄 [8][10][11][13][15] 模型层:底层大模型成为核心“卖铲人” - 桌面智能体的基础能力由底层大模型决定,其高度依赖超长上下文和高性价比的推理两大核心能力 [6][8] - 在OpenClaw作者推荐下,擅长长文本与逻辑推理的国产模型MiniMax M2.1被成功带火,Kimi等模型也被提及为潜在选项 [7] - 国内外大模型公司(如OpenAI、DeepSeek、Kimi)均已将智能体作为发力方向,通过将智能体能力“内化”进模型参与竞争 [8] - 智能体的稳定运行还需LangChain等提示词编排工具,以及Pinecone等向量数据库作为支撑记忆的“外挂海马体” [7] 硬件与部署层:新的市场机会涌现 - OpenClaw设计为本地运行,其爆火使Mac Mini因系统便利性和ARM架构功耗优势而需求激增,被社区视为“理财产品” [4][17] - 出于隐私安全和隔离考虑,能一键部署的云服务器成为运行OpenClaw的“天选”方案,阿里云、腾讯云、京东云等国内云厂商火速上线了专属服务或应用模板 [4] - 硬件厂商迅速跟进,华强北已推出预装桌面智能体的AI小主机,通过局域网连接用户主力机,提供7x24小时服务 [18][19] - 边缘计算厂商推出“云电脑盒子”等瘦客户端方案,以每月几十元的低成本提供云端算力,为轻量级智能体用户提供了更具性价比的选择 [20] - 未来硬件层将出现一批专门为AI智能体设计的、更具性价比的国产“大内存Mini主机”或“云AI盒子” [20] 云服务与中间件:生态中的隐形支柱 - 云服务器因支持7*24小时运行、部署迅速且成本友好,成为运行OpenClaw类智能体的理想选择 [4][5] - 当智能体需要接入模型API时,会产生高昂的Token消耗成本,有开发者体验OpenClaw半小时就用光了原本预计使用十几天、上百万的Token [5] - 为确保拥有高权限的智能体安全运行,Docker容器和各类安全沙箱技术成为刚需,这些中间件是支撑智能体稳定运行的“隐形骨架” [7]
LangChain 创始人警告:2026 成为“Agent 工程”分水岭,传统软件公司的生存考验开始了
AI前线· 2026-01-31 13:33
文章核心观点 - 以LangChain创始人Harrison Chase的观点为核心,阐述了“长任务Agent”的兴起正在从根本上改变软件工程范式,其核心差异在于系统行为不再完全由确定性代码决定,而是由非确定性的模型黑箱与代码共同决定,这要求开发、测试和调试方法发生根本性转变 [2][30] - 预测长任务Agent的落地将在2025年末到2026年进一步加速,2026年可能成为“长任务Agent元年”,这将对现有软件公司的竞争格局产生类似从本地部署到云转型的深远影响 [2][3] - 当前最成熟的长任务Agent应用是编程Agent,其核心算法是“让LLM在循环中运行”,而未来的进步将依赖于更聪明的上下文工程(如压缩、记忆)以及模型与框架/harness的共同进化 [7][13][21][24] 长任务Agent的定义、现状与案例 - **定义与拐点**:长任务Agent不只是多回合聊天,而是能在更长时间里持续执行、反复试错、不断自我修正的“数字员工”[2] 其真正起飞的拐点大约在2025年6-7月,以Claude Code、Deep Research、Manus等产品的爆发为标志 [21] - **核心应用形态**:目前最成熟、使用最多的案例是编程Agent [9] 其他优秀案例包括AI SRE(如Traversal公司的产品)和研究型Agent [9] 最“杀手级”的应用形态是让Agent长时间运行并产出“初稿”,然后由人类进行审阅和修改,这在编程、AI SRE、报告生成、金融研究和客服领域均有体现 [9][10] - **为何现在可行**:这是模型能力提升与工程框架/harness成熟共同作用的结果 [13] 模型方面,推理模型带来了巨大提升 [13] 工程方面,逐渐摸索出了上下文压缩、规划、文件系统工具等关键原语 [12][13] Agent工程范式的转变:从框架到Harness - **框架与Harness的区别**:框架是围绕模型的一层抽象,强调灵活性和基础设施,便于切换模型和封装组件 [11] Harness则更“有主张”,内置了明确的设计立场和最佳实践,例如Deep Agents默认提供规划工具和上下文压缩功能 [11][12] - **Harness的现状**:目前在Harness工程上做得最好的大多是编程类公司(如Claude Code、Factory、AMP),其性能差异不仅来自模型,更来自对“模型如何在harness中工作”的理解 [15][17] Harness往往与模型家族绑定紧密,不同模型家族可能需要不同的设计 [17] - **Harness的设计关键**:包括对模型训练偏好的理解(如OpenAI模型熟悉Bash,Anthropic提供显式文件编辑工具)、高效的上下文压缩机制、以及主Agent与子Agent的高效通信策略 [18] 许多公开的harness prompt长达几百行 [19] 构建Agent与传统软件开发的根本差异 - **逻辑来源与确定性**:传统软件的所有逻辑都写在代码里,是确定性的;而Agent的行为逻辑很大一部分来自模型本身,是一个非确定性的黑箱,必须通过实际运行才能理解其行为 [30] - **开发与调试核心**:传统软件的“真相来源”在代码中,而Agent的真相来源是代码与执行轨迹的组合 [32] 因此,追踪/执行轨迹成为理解、调试和团队协作的核心工具,其重要性远超过在传统软件中的应用 [30][31][33] - **开发流程**:构建Agent是一个更偏迭代式的过程,因为在发布前无法完全确定Agent会如何行动,需要通过更多轮次的交互和反馈来调整系统prompt或指令,使其行为符合预期 [34][35] 人类的判断和反馈被深度整合到开发与评估循环中 [39][40] 现有软件公司的挑战与机遇 - **面临的挑战**:工程范式的变化将重新筛选参与者,并非所有公司都能成功转型,类似当年从本地部署转向云 [2][36] 年轻团队可能因没有传统软件开发方式的先入之见而更快适应新范式 [36] - **潜在优势**:现有公司手中握有的高价值数据与API依然是王牌资产,能够较容易地暴露给智能体使用并产生真实价值 [3][37][38] 关于“如何使用这些数据”的指令和流程知识是新的竞争点,垂直领域创业公司(如金融领域的Rogo)通过注入行业知识获得了优势 [38] - **可能的护城河**:记忆功能可能成为真正的护城河,特别是在为特定任务构建的工作流型Agent中,记忆能让系统通过反思历史交互来改进自身,从而形成持续优化的体验优势 [52] 但实现安全且用户可接受的自我改进是关键挑战 [52] Agent能力栈与未来演进方向 - **核心能力组件**:文件系统访问能力被认为是长任务Agent的必备项,无论是真实还是虚拟文件系统,对于上下文管理、状态存储和中间结果回查都至关重要 [25][56] 代码执行环境是另一个高度看好的标配能力,其成熟度优于直接操作浏览器 [56] - **上下文工程演进**:未来的进步将来自更聪明的上下文管理方式,例如让模型自己决定何时进行上下文压缩,以及发展跨长时间尺度的记忆系统 [24] 记忆本质上是长期的上下文工程 [24] - **交互界面演进**:与长任务Agent协作的UI需要同时支持异步管理和同步对话模式 [53] 异步模式用于管理长时间运行或并行的多个Agent,同步模式则用于即时反馈和纠正 [53][55] 能够查看和协作的“工作区”状态(如文件、目录)是界面设计的重要部分 [54]