Long Horizon Agents - 财报，业绩电话会，研报，新闻

Long Horizon Agents

搜索文档

红杉对话 LangChain 创始人：2026 年 AI 告别对话框，步入 Long-Horizon Agents 元年

海外独角兽· 2026-01-27 20:33

文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年，其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化，其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中，“追踪记录”取代代码成为新的“单一事实来源”，理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用，其核心是让大语言模型在循环中自主决策，如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持，典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性，但能承担大量工作，并采用人机协作模式，例如在客服场景中，后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段：早期的简单Prompt链、引入工具调用后的自定义认知架构，以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳，其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破，例如在编码领域，经过Harness优化的智能体性能波动巨大，同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中，由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率，展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配，它在上下文管理中极为有用，例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是：所有智能体本质上是否都应该是编码智能体，因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的，但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于，其核心逻辑部分存在于非确定性的模型黑盒中，而非全部写在代码里[25] - 因此，智能体的“单一事实来源”是代码加上“追踪记录”，开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性，发布前的行为未知，需要通过更多交互来使其达标，这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司，其积累的数据和API是构建智能体Harness的巨大优势，但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断，而“LLM-as-a-Judge”是建立人类判断代理的关键，前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力，这种能力被用于评估、自动纠错和更新内存，本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace，自行诊断问题并修复代码，实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中，通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式：用户默认异步管理后台运行的多个智能体，但在关键时刻可切换到同步聊天模式，并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通，因为模型仍需人类在环进行纠错，注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件，文件系统访问和编码能力被认为是智能体的标配，而浏览器操作能力尚不成熟[38][39]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence