Agent工程范式从Context Engineering向Harness Engineering演进 - 行业关注重点正从AI的生成能力转向执行能力,长程任务中的上下文挤压、工具开销和业务语境缺口问题凸显,单一的Context Engineering已难以支撑Agent稳定运行,围绕执行环境、约束机制和反馈回路设计的Harness Engineering受到更多关注[1] - Harness Engineering被视为继Prompt Engineering、Context Engineering之后,Agent工程进一步走向执行框架设计的新信号,其核心判断是决定Agent落地效果的关键已不只是模型能力,更在于系统能否提供清晰边界、自动校验和可复用的纠错流程[5] - 新的工程分工正在形成,模型负责生成与执行,人类则更多负责设定约束、补充反馈并持续优化运行框架[6] Context Engineering的局限性 - 随着AI应用从单轮问答走向多步执行与长链路任务,单靠提示词(Prompt Engineering)已难以覆盖真实任务中的上下文缺失、信息噪声与工具协同问题[7] - Context Engineering的核心是系统化设计推理所需的信息供给,包括检索、记忆、工具反馈与上下文组织,以减少执行偏移和结果失真,曾被Andrej Karpathy认为是工业级LLM应用的关键[8] - 但在更长链路、更高复杂度的真实任务中,Context Engineering的局限性集中暴露,包括受限于上下文注意力预算、工具接入和协议开销挤压有效认知空间,以及难以自动补齐关键的业务定义和组织隐性知识[8] Harness Engineering的价值与成效 - Harness Engineering的价值不依赖于更换底层模型,可直接体现在系统层优化上,例如LangChain团队在固定模型不变的前提下实现了Agent表现的明显提升[6] - 具体案例显示,LangChain的Deep Agents团队在2025年2月保持模型为GPT-5.2-Codex不变,仅通过调整harness,就将coding agent在Terminal Bench 2.0上的得分从52.8%提升至66.5%,排名从Top 30附近跃升至Top 5[6] - 其改进方法是借助trace在大规模运行中识别失败模式,再针对性回写到harness中,这意味着Harness Engineering将“调试模型”转化为“调整系统”,通过可观测性与闭环迭代持续放大模型已有能力[7] - 行业观点认为,当Agent反复犯同类错误时,关键在于让系统更快暴露错误、定位错误并推动修正,这正是Harness Engineering的实践范畴[5]
Context 还不够,Harness 才是 Agent 工程优化的正解?
机器之心·2026-03-22 10:36