智能体框架（harness） - 财报，业绩电话会，研报，新闻

智能体框架（harness）

搜索文档

LangChain 创始人警告：2026 成为“Agent 工程”分水岭，传统软件公司的生存考验开始了

程序员的那些事· 2026-01-31 11:16

文章核心观点 - 软件工程范式正在发生根本性转变，从由确定性代码定义系统行为，转向由非确定性的AI模型（Agent）驱动，这要求全新的开发、测试和调试方法 [1] - 长任务Agent（Long Horizon Agents）在2025年末至2026年将加速落地，其能力远超多回合聊天，更像能在长时间内持续执行、试错和自我修正的“数字员工” [1] - 构建Agent不仅是给软件开发“加一层AI”，而是工程范式本身的变革，这将对现有软件公司的竞争格局和护城河构成挑战 [2] 长任务Agent的现状与拐点 - 长任务Agent的核心是让大语言模型在一个循环中自主运行和决策，这一设想因模型能力增强和支撑框架（Harness）的成熟而开始真正奏效 [6] - 当前最成熟的长任务Agent应用是编程Agent，其能力正在向AI SRE（站点可靠性工程）、研究型Agent（如分析事故日志）、报告生成、金融研究和客服等领域扩散 [7] - 长任务Agent的拐点大约出现在2025年6-7月，以Claude Code、Deep Research、Manus等产品的爆发为标志，其底层使用同一核心算法：让LLM在循环中运行 [18] - 对于许多程序员而言，Claude Opus 4.5模型可能是一个心理上的分水岭，标志着模型能力刚好强到足以支撑长任务Agent形态，从Scaffolding（脚手架）迈向了Harness（运行框架） [18] Agent工程的核心组件：模型、框架与Harness - **模型**：即大语言模型，负责输入和输出token [9] - **框架**：是围绕模型的一层抽象，便于切换模型并封装工具、向量数据库、记忆等组件，强调灵活性和无偏好性，属于基础设施 [9] - **Harness**：比框架更有“主张”，内置了明确的设计立场和最佳实践，例如默认提供规划工具、上下文压缩和文件系统交互能力 [9] - 模型与Harness是“共同进化”的关系，两年前难以预见基于文件系统的Harness会成为最优解之一，因为当时模型未被充分训练过此类模式 [10] - 几乎所有做编程Agent的公司都在自研Harness，性能差异不仅来自模型，更来自对“模型如何在Harness中工作”的理解 [14] 构建Agent与传统软件开发的根本差异 - **逻辑来源不同**：传统软件的所有逻辑都写在代码里；而Agent如何工作的逻辑，很大一部分来自模型本身这个黑箱，具有非确定性 [27] - **理解与调试方式不同**：理解Agent行为不能仅靠读代码，必须通过追踪其在真实运行中的每一步执行轨迹，这使得Tracing（如LangSmith）成为核心工具 [27][28] - **“真相来源”不同**：传统软件的真相在代码中；Agent的真相是代码与执行轨迹的组合，轨迹成为可观察的事实载体 [29] - **测试方式不同**：传统软件可依赖程序化测试；评估Agent需要引入人类判断，在线测试比离线测试更重要，因为行为在真实输入下才会“涌现” [29][36] - **开发过程不同**：构建Agent是一个更偏迭代的过程，因为在发布前无法确切知道Agent会怎么做，需要更多轮次迭代来调整系统提示或指令 [31][32] Agent时代软件公司的机遇与挑战 - **现有公司的资产价值**：传统软件公司拥有的数据和API依然是高价值资产，能够被暴露给Agent使用并产生真实价值 [34][35] - **新增的竞争要素**：关于“如何使用这些数据”的指令变得至关重要，这部分知识过去由人类掌握，现在需要被系统化并固化到Agent中 [35] - **潜在的护城河**：记忆功能可能成为Agent应用的真正护城河，因为基于历史交互的学习能显著提升特定任务下的体验和性能 [49] - **人员与心态**：Agent工程的采纳可能呈现“年轻化倾向”，许多团队成员是更初级的开发者，没有传统软件开发方式的先入之见 [33] - **转型难度类比**：从本地部署软件转向云的转型过程中，成功公司不多，因为工程范式变化会重新筛选参与者，Agent时代的转型可能面临类似挑战 [33] Agent的关键技术与未来方向 - **上下文工程**：是长任务Agent突破的核心，涉及压缩、子Agent、技能、记忆等围绕上下文管理的技术 [18] - **文件系统访问**：现阶段长任务Agent几乎必须拥有文件系统（或虚拟文件系统）访问能力，这对上下文管理（如存储中间结果、实现压缩）至关重要 [22][53] - **代码执行能力**：给Agent配备安全的代码沙箱环境以执行脚本，比直接操作浏览器更成熟、通用，是能力栈的关键部分 [52][53] - **记忆与自我改进**：让Agent通过反思执行轨迹来更新自己的指令或代码，是一种重要的自我改进形式，但需确保安全和用户可接受 [45][49] - **用户界面演进**：需要同时支持异步管理（如管理多个长时间运行的任务）和同步对话（用于即时反馈和纠正）模式，并能查看Agent修改的“状态” [50][51]