Workflow
AI Agent 编码
icon
搜索文档
提示词工程、上下文工程都过时了,现在是 Harness Engineering 的时代
Founder Park· 2026-03-13 21:04
Harness Engineering的兴起与定义 - 2026年开年,开发者社区最热关键词为Harness Engineering,由HashiCorp联合创始人Mitchell Hashimoto在2月5日命名[2] - 一个月内,该概念从一篇博客文章发展为开发者社区高频词[3] - 行业新共识:在AI Agent编码领域,决定结果好坏的最大变量是模型所处的环境,而非模型本身[4] - 核心观点:模型能力竞赛持续,但决定Agent工程产出质量的杠杆已转移到“环境”一侧,这个环境就是Harness[5][6] 从Prompt到Context再到Harness的认知演进 - **2023年:Prompt Engineering全盛期**,焦点是写好单条提示词,但处理复杂任务时局限性暴露[9] - **2025年中:Context Engineering兴起**,焦点从“写好一条指令”扩展到“设计动态系统来组装上下文”,包括RAG、对话历史等编排[9] - **2026年2月:Harness Engineering正式命名**,解决了Context Engineering的不足,即上下文无法阻止Agent“做不该做的事”[11][12] - 三阶段关系总结:Prompt Engineering管“说什么”,Context Engineering管“知道什么”,Harness Engineering管“在什么环境里做事”[13] OpenAI实验的核心发现与工程实践 - **实验设定**:5名工程师在五个月内,通过Codex Agent协作交付了超过100万行代码的生产级软件产品,无一行人类手写代码[4][15] - **效率数据**:平均每名工程师每日合并3.5个Pull Request,代码审查通过Agent对Agent循环实现大规模自动化[15] - **关键挑战**:最困难的挑战集中在设计环境、反馈回路和控制系统上[15] - **文档工程进化**:从将所有信息塞进庞大AGENTS.md文件的错误,演变为**渐进式披露模型**,AGENTS.md精简为约100行的“目录”,指向结构化docs/目录[16][17] - **超越文档**:将可观测性数据(日志、指标、追踪)直接暴露给Agent,使其能通过LogQL和PromQL查询验证运行时状态,甚至通过Chrome DevTools Protocol操作浏览器以重现Bug[18][19] - **机械化架构围栏**:通过确定性Linter(错误输出格式专为Agent设计)和基于LLM的审计Agent,严格拦截违反分层架构依赖流向的代码[21][22] Harness Engineering的三维框架(Böckeler解读) - **维度一:上下文工程**:确保Agent在正确时机获得正确信息,包括渐进式文档披露、动态可观测性数据接入[24] - **维度二:架构约束**:通过机械化手段(如专为Agent设计的Linter)强制执行架构边界,使“违规→检测→修复”循环可在Agent内部闭环完成[25] - **维度三:熵管理/垃圾回收**:部署专用清理Agent定期扫描文档漂移、模式违规和依赖问题,防止Harness自身随时间腐化[26] - 三者关系:上下文工程让Agent“知道该做什么”,架构约束确保“只在边界内行事”,熵管理保障“整个系统不随时间退化”[26] 行业实践与验证 - **Stripe的工业级实践**:其Minions体系每周合并超过1,300个由AI完全编写的Pull Request[28]。每个Agent任务在独立预热devbox中运行(约10秒启动),通过名为Toolshed的中心化MCP服务器访问近500个工具[28]。采用“蓝图”模式,混合确定性节点与Agent节点,将LLM限制在“可控盒子”里以提升可预测性[28] - **LangChain的对照实验**:其编码Agent在Terminal Bench 2.0基准测试上,仅通过优化Harness(不修改模型),得分从52.8%提升至66.5%,排名从第30跃升至第5[4][29]。这是“环境比模型更重要”的直接证据[30] - **行业采用**:Anthropic将Claude Code定位为“灵活的Agent线束”[31]。MCP(模型控制协议)月SDK下载量超过9,700万,获OpenAI、Google、Microsoft和AWS采用,正成为Agent工具访问的通用标准[31] - **行业数据**:LangChain报告显示,89%的受访者已为其Agent实施可观测性,但仅有52%实施了评估(Evals)[32] 工程师角色与组织结构的转变 - **工程师核心工作转变**:从写代码转向设计让Agent可靠运行的环境,具体包括构建文档与上下文体系、以机器可处理的方式定义业务意图、构建自动化的防呆验证机制[33] - **新工作模式**:工程师如软件架构师,只讨论高层架构和重大决策,不涉及具体代码实现[34]。系统理解的深度比写代码的速度更重要[35] - **组织结构变化**:OpenAI的3-7人团队完成了以前需数十人规模的工程输出[35]。Stripe让单名工程师可同时向多个Agent分配任务,团队结构向两三人甚至单人团队收敛[35] - **“学徒缺口”挑战**:初级开发者若过早进入Agent驱动循环,可能缺乏构建健壮Harness所需的深度系统直觉,需设计保留手动开发直觉的学习路径[35] 开发者行动建议与采用路径 - **起步**:把同一个任务做两遍(先手动,再让Agent做),以建立对Agent能力边界的直觉[36] - **养成习惯**:每天下班前30分钟启动Agent,处理深度调研、并行探索、Issue和PR分诊等任务[36] - **关键跃迁**:在项目中建立一份AGENTS.md文档,从最基本内容开始,每次Agent犯错就补充一条规则,使其逐渐长成Harness[36] - **心态建议**:关掉Agent的桌面通知,由人类控制中断时机[36] - **对技术负责人的建议**:选择新项目做试点,并建立Evals(评估体系)能力[37]