AI Agent 编码 - 财报，业绩电话会，研报，新闻

AI Agent 编码

搜索文档

提示词工程、上下文工程都过时了，现在是 Harness Engineering 的时代

Founder Park· 2026-03-13 21:04

Harness Engineering的兴起与定义 - 2026年开年，开发者社区最热关键词为Harness Engineering，由HashiCorp联合创始人Mitchell Hashimoto在2月5日命名[2] - 一个月内，该概念从一篇博客文章发展为开发者社区高频词[3] - 行业新共识：在AI Agent编码领域，决定结果好坏的最大变量是模型所处的环境，而非模型本身[4] - 核心观点：模型能力竞赛持续，但决定Agent工程产出质量的杠杆已转移到“环境”一侧，这个环境就是Harness[5][6] 从Prompt到Context再到Harness的认知演进 - **2023年：Prompt Engineering全盛期**，焦点是写好单条提示词，但处理复杂任务时局限性暴露[9] - **2025年中：Context Engineering兴起**，焦点从“写好一条指令”扩展到“设计动态系统来组装上下文”，包括RAG、对话历史等编排[9] - **2026年2月：Harness Engineering正式命名**，解决了Context Engineering的不足，即上下文无法阻止Agent“做不该做的事”[11][12] - 三阶段关系总结：Prompt Engineering管“说什么”，Context Engineering管“知道什么”，Harness Engineering管“在什么环境里做事”[13] OpenAI实验的核心发现与工程实践 - **实验设定**：5名工程师在五个月内，通过Codex Agent协作交付了超过100万行代码的生产级软件产品，无一行人类手写代码[4][15] - **效率数据**：平均每名工程师每日合并3.5个Pull Request，代码审查通过Agent对Agent循环实现大规模自动化[15] - **关键挑战**：最困难的挑战集中在设计环境、反馈回路和控制系统上[15] - **文档工程进化**：从将所有信息塞进庞大AGENTS.md文件的错误，演变为**渐进式披露模型**，AGENTS.md精简为约100行的“目录”，指向结构化docs/目录[16][17] - **超越文档**：将可观测性数据（日志、指标、追踪）直接暴露给Agent，使其能通过LogQL和PromQL查询验证运行时状态，甚至通过Chrome DevTools Protocol操作浏览器以重现Bug[18][19] - **机械化架构围栏**：通过确定性Linter（错误输出格式专为Agent设计）和基于LLM的审计Agent，严格拦截违反分层架构依赖流向的代码[21][22] Harness Engineering的三维框架（Böckeler解读） - **维度一：上下文工程**：确保Agent在正确时机获得正确信息，包括渐进式文档披露、动态可观测性数据接入[24] - **维度二：架构约束**：通过机械化手段（如专为Agent设计的Linter）强制执行架构边界，使“违规→检测→修复”循环可在Agent内部闭环完成[25] - **维度三：熵管理/垃圾回收**：部署专用清理Agent定期扫描文档漂移、模式违规和依赖问题，防止Harness自身随时间腐化[26] - 三者关系：上下文工程让Agent“知道该做什么”，架构约束确保“只在边界内行事”，熵管理保障“整个系统不随时间退化”[26] 行业实践与验证 - **Stripe的工业级实践**：其Minions体系每周合并超过1,300个由AI完全编写的Pull Request[28]。每个Agent任务在独立预热devbox中运行（约10秒启动），通过名为Toolshed的中心化MCP服务器访问近500个工具[28]。采用“蓝图”模式，混合确定性节点与Agent节点，将LLM限制在“可控盒子”里以提升可预测性[28] - **LangChain的对照实验**：其编码Agent在Terminal Bench 2.0基准测试上，仅通过优化Harness（不修改模型），得分从52.8%提升至66.5%，排名从第30跃升至第5[4][29]。这是“环境比模型更重要”的直接证据[30] - **行业采用**：Anthropic将Claude Code定位为“灵活的Agent线束”[31]。MCP（模型控制协议）月SDK下载量超过9,700万，获OpenAI、Google、Microsoft和AWS采用，正成为Agent工具访问的通用标准[31] - **行业数据**：LangChain报告显示，89%的受访者已为其Agent实施可观测性，但仅有52%实施了评估（Evals）[32] 工程师角色与组织结构的转变 - **工程师核心工作转变**：从写代码转向设计让Agent可靠运行的环境，具体包括构建文档与上下文体系、以机器可处理的方式定义业务意图、构建自动化的防呆验证机制[33] - **新工作模式**：工程师如软件架构师，只讨论高层架构和重大决策，不涉及具体代码实现[34]。系统理解的深度比写代码的速度更重要[35] - **组织结构变化**：OpenAI的3-7人团队完成了以前需数十人规模的工程输出[35]。Stripe让单名工程师可同时向多个Agent分配任务，团队结构向两三人甚至单人团队收敛[35] - **“学徒缺口”挑战**：初级开发者若过早进入Agent驱动循环，可能缺乏构建健壮Harness所需的深度系统直觉，需设计保留手动开发直觉的学习路径[35] 开发者行动建议与采用路径 - **起步**：把同一个任务做两遍（先手动，再让Agent做），以建立对Agent能力边界的直觉[36] - **养成习惯**：每天下班前30分钟启动Agent，处理深度调研、并行探索、Issue和PR分诊等任务[36] - **关键跃迁**：在项目中建立一份AGENTS.md文档，从最基本内容开始，每次Agent犯错就补充一条规则，使其逐渐长成Harness[36] - **心态建议**：关掉Agent的桌面通知，由人类控制中断时机[36] - **对技术负责人的建议**：选择新项目做试点，并建立Evals（评估体系）能力[37]

Artificial Intelligence

Artificial Intelligence