Long Horizon Agents - 财报，业绩电话会，研报，新闻

Long Horizon Agents

搜索文档

红杉对话 LangChain 创始人：2026 年 AI 告别对话框，步入 Long-Horizon Agents 元年

36氪· 2026-01-28 09:01

行业核心观点 - 2026年是AGI（通用人工智能）的“实干者”元年，其核心是具备自主规划、长时间运行和目标导向能力的“长程智能体”，标志着AI从“对话者”向“执行者”的范式转变 [1] - 长程智能体的核心价值在于为复杂任务提供高质量的“初稿”，其应用正从编码、Excel自动化等垂直领域向所有复杂任务流扩散 [1][5] - 智能体发展的第三个拐点已经到来，这得益于模型能力的增强与围绕模型构建的、有主见的“软件外壳”的共同进化 [2][11] 长程智能体的爆发与核心应用 - 长程智能体已开始真正发挥作用，其核心理念是让大语言模型在循环中自主决策，早期代表如AutoGPT [2] - 编码领域是长程智能体最快起飞和案例最多的应用场景 [2][5] - 其他杀手级应用场景包括：AI站点可靠性工程师、研究分析以及金融等领域中需要生成任务初稿或总结报告的工作 [5][6][7] - 在客户服务等场景，长程智能体可在后台运行，为转接的人工客服生成前因后果总结，提升效率 [7] 智能体架构：从框架到软件外壳 - 智能体架构正从通用的“框架”时代进入更有主见的“软件外壳”时代，后者是开箱即用、内置了预设规划工具等最佳实践的软件环境 [8][10][11] - 软件外壳的关键能力包括：上下文压缩、文件系统交互以及子智能体调度 [11][18] - 模型能力的提升与软件外壳工程设计的进步共同促成了当前突破，特别是推理模型的进步和一系列上下文工程原语的成熟 [11][12] - 在编码基准测试中，经过特定软件外壳优化的智能体性能显著超越原始模型，表明第三方开发者能在该层面挖掘巨大性能提升 [15][17] 编码智能体与通用智能体的演进 - 编码智能体可能是通用智能体的终极形态，因为“写代码”本身就是让计算机工作的极佳通用手段 [1][23] - 构建长程智能体的一个关键共识是必须赋予其文件系统访问权限，这有助于高效的上下文管理 [11][23] - 未来的竞争焦点将集中在围绕“让大语言模型循环运行”这一核心算法的上下文工程技巧上，例如记忆管理和上下文压缩的自动化 [22][23] 智能体开发与传统软件开发的差异 - 最大区别在于：智能体的逻辑部分存在于非确定性的黑盒模型中，而非全部写在可控代码里，因此必须通过实际运行来理解其行为 [25] - “追踪记录”成为智能体开发的“单一事实来源”和团队协作的核心支点，用于复现智能体内部每一步的上下文状态，这不同于传统软件仅在出错时查看日志 [25][26] - 智能体开发更具迭代性，因为其发布前的行为是未知的，需要通过在线测试和真实世界交互来不断调整 [27] - 现有软件公司因其拥有的数据和API，在接入智能体时具有巨大价值，但关于如何处理数据的“指令”部分可能是全新的 [29] 评估、记忆与自我改进 - 智能体的评估需要引入人类判断，其代理方式是使用“大语言模型作为评判者”，但关键在于确保其与人类判断对齐 [32][33] - 记忆功能是智能体形成竞争壁垒的关键，一个经过长时间磨合、内化了特定任务模式与背景记忆的智能体将极具价值 [36] - 智能体已具备通过反思追踪记录来自我改进的能力，体现在自动纠错、记忆更新等方面，实现了一种有人类在环的递归式自我改进 [33][34][35] 未来的交互与生产形态 - 理想的智能体交互是异步管理和同步协作的统一，用户需要能在两种模式间无缝切换 [37][38][40] - 未来的交互范式可能围绕“共享状态”展开，如同步查看和修改文件系统、云端文档中的同一份资料，Anthropic的Coworker是范例 [38] - 代码沙箱和命令行访问将是未来智能体的核心组件，文件系统访问权限被认为是所有智能体的标配 [41][42][44]

Artificial General Intelligence (AGI)

Context Engineering

Memory

Trace

Artificial Intelligence

Long Horizon Agents

Artificial General Intelligence (AGI)

Context Engineering

Memory

Trace

Artificial Intelligence

Long Horizon Agents

红杉对话 LangChain 创始人：2026 年 AI 告别对话框，步入 Long-Horizon Agents 元年

海外独角兽· 2026-01-27 20:33

文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年，其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化，其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中，“追踪记录”取代代码成为新的“单一事实来源”，理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用，其核心是让大语言模型在循环中自主决策，如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持，典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性，但能承担大量工作，并采用人机协作模式，例如在客服场景中，后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段：早期的简单Prompt链、引入工具调用后的自定义认知架构，以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳，其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破，例如在编码领域，经过Harness优化的智能体性能波动巨大，同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中，由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率，展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配，它在上下文管理中极为有用，例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是：所有智能体本质上是否都应该是编码智能体，因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的，但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于，其核心逻辑部分存在于非确定性的模型黑盒中，而非全部写在代码里[25] - 因此，智能体的“单一事实来源”是代码加上“追踪记录”，开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性，发布前的行为未知，需要通过更多交互来使其达标，这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司，其积累的数据和API是构建智能体Harness的巨大优势，但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断，而“LLM-as-a-Judge”是建立人类判断代理的关键，前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力，这种能力被用于评估、自动纠错和更新内存，本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace，自行诊断问题并修复代码，实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中，通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式：用户默认异步管理后台运行的多个智能体，但在关键时刻可切换到同步聊天模式，并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通，因为模型仍需人类在环进行纠错，注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件，文件系统访问和编码能力被认为是智能体的标配，而浏览器操作能力尚不成熟[38][39]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence