Context 还不够，Harness 才是 Agent 工程优化的正解？

Agent工程范式从Context Engineering向Harness Engineering演进 - 行业关注重点正从AI的生成能力转向执行能力，长程任务中的上下文挤压、工具开销和业务语境缺口问题凸显，单一的Context Engineering已难以支撑Agent稳定运行，围绕执行环境、约束机制和反馈回路设计的Harness Engineering受到更多关注[1] - Harness Engineering被视为继Prompt Engineering、Context Engineering之后，Agent工程进一步走向执行框架设计的新信号，其核心判断是决定Agent落地效果的关键已不只是模型能力，更在于系统能否提供清晰边界、自动校验和可复用的纠错流程[5] - 新的工程分工正在形成，模型负责生成与执行，人类则更多负责设定约束、补充反馈并持续优化运行框架[6] Context Engineering的局限性 - 随着AI应用从单轮问答走向多步执行与长链路任务，单靠提示词（Prompt Engineering）已难以覆盖真实任务中的上下文缺失、信息噪声与工具协同问题[7] - Context Engineering的核心是系统化设计推理所需的信息供给，包括检索、记忆、工具反馈与上下文组织，以减少执行偏移和结果失真，曾被Andrej Karpathy认为是工业级LLM应用的关键[8] - 但在更长链路、更高复杂度的真实任务中，Context Engineering的局限性集中暴露，包括受限于上下文注意力预算、工具接入和协议开销挤压有效认知空间，以及难以自动补齐关键的业务定义和组织隐性知识[8] Harness Engineering的价值与成效 - Harness Engineering的价值不依赖于更换底层模型，可直接体现在系统层优化上，例如LangChain团队在固定模型不变的前提下实现了Agent表现的明显提升[6] - 具体案例显示，LangChain的Deep Agents团队在2025年2月保持模型为GPT-5.2-Codex不变，仅通过调整harness，就将coding agent在Terminal Bench 2.0上的得分从52.8%提升至66.5%，排名从Top 30附近跃升至Top 5[6] - 其改进方法是借助trace在大规模运行中识别失败模式，再针对性回写到harness中，这意味着Harness Engineering将“调试模型”转化为“调整系统”，通过可观测性与闭环迭代持续放大模型已有能力[7] - 行业观点认为，当Agent反复犯同类错误时，关键在于让系统更快暴露错误、定位错误并推动修正，这正是Harness Engineering的实践范畴[5]