Workflow
Long Horizon Agents
icon
搜索文档
红杉对话 LangChain 创始人:2026 年 AI 告别对话框,步入 Long-Horizon Agents 元年
海外独角兽· 2026-01-27 20:33
文章核心观点 - 2026年是AI从“Talkers”转向“Doers”的元年,其核心载体是具备自主规划、长时间运行和目标导向能力的“长程智能体”[2] - 长程智能体爆发的关键在于模型能力的提升与围绕模型构建的、有主见的“软件外壳”的共同进化,其杀手级应用是为复杂任务提供高质量初稿[3][4][5] - 在长程智能体的开发范式中,“追踪记录”取代代码成为新的“单一事实来源”,理想的交互模式是异步管理与同步协作的统一[3][25][35] Long-Horizon Agents的爆发 - 长程智能体已开始真正发挥作用,其核心是让大语言模型在循环中自主决策,如早期的AutoGPT[3][4] - 此类智能体的价值在于为需要长时间运行、产出初稿的场景提供支持,典型应用包括AI编码、AI站点可靠性工程师以及研究分析[5][6] - 智能体虽难以达到99.9%的可靠性,但能承担大量工作,并采用人机协作模式,例如在客服场景中,后台智能体可为人工生成总结报告[5][6] 从通用框架到Harness架构 - Agent的发展经历了三个阶段:早期的简单Prompt链、引入工具调用后的自定义认知架构,以及当前以“上下文工程”为核心的Harness时代[20][21] - Harness是一种开箱即用、有强预设的软件外壳,其核心价值在于管理上下文压缩、规划工具和文件系统交互等原语[8][9] - 模型能力的提升与Harness工程的进步共同促成了突破,例如在编码领域,经过Harness优化的智能体性能波动巨大,同一模型的表现可因Harness不同而有显著差异[10][14] - 在Terminal-Bench 2.0榜单中,由Factory公司构建的Droid智能体使用GPT-5.2模型取得了64.9%的准确率,展示了第三方Harness的潜力[15] Coding Agent是通用AI的终局形态吗 - 文件系统权限被认为是所有长程智能体的标配,它在上下文管理中极为有用,例如存储原始信息以供查阅[9][24] - 一个核心的行业思考是:所有智能体本质上是否都应该是编码智能体,因为“写代码”本身就是让计算机工作的通用手段[22][23] - 编码能力对于处理长尾复杂用例可能是无可替代的,但目前浏览器操作等能力尚未成熟[39] 构建Long Horizon Agent vs 构建软件 - 构建智能体与构建传统软件的根本区别在于,其核心逻辑部分存在于非确定性的模型黑盒中,而非全部写在代码里[25] - 因此,智能体的“单一事实来源”是代码加上“追踪记录”,开发者必须通过运行和观察Trace来理解其行为[25][26] - 智能体开发更具迭代性,发布前的行为未知,需要通过更多交互来使其达标,这使得内存和自我改进能力变得重要[27][34] - 对于现有软件公司,其积累的数据和API是构建智能体Harness的巨大优势,但关于如何处理数据的指令部分可能是全新的[28] 从人类判断到LLM-as-a-Judge - 评估智能体需要引入人类判断,而“LLM-as-a-Judge”是建立人类判断代理的关键,前提是必须与人类判断对齐[30][31] - 智能体具备反思自身追踪记录的能力,这种能力被用于评估、自动纠错和更新内存,本质上是同一回事[31] - 一种新兴模式是让编码智能体通过命令行工具获取Trace,自行诊断问题并修复代码,实现有人类在环的递归自我改进[32][33] 未来的交互与生产形态 - 在特定垂直工作流中,通过长时间磨合积累的记忆能形成极高的竞争壁垒[3][35] - 未来的理想交互形态是混合模式:用户默认异步管理后台运行的多个智能体,但在关键时刻可切换到同步聊天模式,并基于共享状态进行协作[35][37] - 纯异步模式目前难以跑通,因为模型仍需人类在环进行纠错,注定需要在异步和同步之间切换[37] - 代码沙箱将是未来的核心组件,文件系统访问和编码能力被认为是智能体的标配,而浏览器操作能力尚不成熟[38][39]