上下文工程(Context Engineering)
搜索文档
智能体应用研究系列(三):Harness筑基,Agent奔赴自主执行时代
招商证券· 2026-06-24 16:02
报告行业投资评级 - 行业评级:推荐(维持)[3] 报告的核心观点 - 智能体(Agent)工程框架正经历从提示词工程、上下文工程到驾驭工程(Harness Engineering)的演进,驾驭工程通过构建完整的运行环境,成为提升Agent在长链路复杂任务中稳定交付能力的关键,并正成为产品差异化和工程壁垒的重要来源[1][6][24] - Agent产品形态正从Copilot嵌入式助手、Coding Agent等单任务智能体,向垂类流程Agent、Computer Use/GUI Agent以及未来的Multi-Agent分工协作演进,自主执行能力不断增强,推动Agent向“数字劳动力”转变[1][6][46][48] - Agent与基座大模型的技术迭代共同推动全球AI产业商业化提速,信息技术的商业模式开始由按席位收费转向按任务量、结果收费,大模型和Agent正成为成长最快的AI产业方向[1][6][131] - AI算力基础设施是产业发展的基本保障,AI Infra及MaaS云服务厂商将分享AI产业成长红利[6][131] Agent概览与工程演进 - **Agent定义**:AI Agent是一种能够感知环境、进行决策并执行动作的自主系统,其核心构成可概括为Agent = LLM(大脑) + Planning(规划) + Memory(记忆) + Tools(工具)[11] - **提示词工程(2022-2024)**:侧重优化单轮或局部交互中的指令表达,通过思维链式提示词等方式激发模型已有能力,提升任务交付的准确性和可控性[15] - **上下文工程(2025)**:侧重构建动态系统,通过优化信息供给机制(如RAG、压缩、结构化笔记等)来管理进入模型上下文窗口的信息,解决“看到什么”的问题,以缓解上下文腐烂等问题[16][17][19] - **驾驭工程介绍**:旨在设计一套环境与机制,使Agent能在可控边界内持续自主工作,并能被自动验证、快速纠错与持续改进,解决了Agent“怎么稳定运行”的问题[20][23] - **驾驭工程的核心能力**:通过持久化存储、通用执行能力、安全运行与验证、知识延展、上下文治理、长时程自主执行等六大方面,补足模型跨越到稳定Agent所需的核心能力[24][25] - **驾驭工程案例与价值**: - **LangChain案例**:在不改变底层模型(GPT-5.2 Codex)的前提下,仅通过优化Harness框架,使其Coding Agent在Terminal Bench 2.0评测中的得分从52.8%跃升至66.5%,排名跻身前5[28][29] - **OpenAI案例**:一个7人团队耗时5个月,利用Codex智能体自主迭代,生成了超过100万行代码的产品,开发效率约为人工的1/10,并具备软件全生命周期管理能力[31][32][33] - **Anthropic案例**:通过优化Harness框架,仅凭一句提示词,花费6小时、200美元成本,制作出可流畅运行的复古游戏编辑器;而未优化的单Agent架构做出的产品核心功能无法运行[35][36] - **工程演进小结**:Agent工程从提示词、上下文到驾驭工程呈递进嵌套关系,驾驭工程作为前两者的延伸,提供可长期维护的运行环境,是让智能“更有用”的关键[38] - **工程与训练协同**:Harness正被融入大模型的后训练中,形成“工程—训练”反馈循环,使模型原生支持部分通用harness能力(如文件系统操作、bash执行),增强其在特定复杂任务中的执行效果[43] Agent产品的迭代演进 - **Copilot嵌入式助手**:强调human in the loop,是聊天机器人和自主Agent的中间形态,典型产品包括GitHub Copilot(代码开发)、Microsoft 365 Copilot(办公软件)、Salesforce Einstein Copilot(企业业务流程)等[49][50] - **Coding Agent(编程智能体)**: - **典型能力**:包括陌生代码库理解、全代码库开发、跨工具链执行、测试运行与持续集成(CI)修复等[57] - **发展迅速**:Anthropic内部数据显示,其2026年第二季度人均代码量上升至2021-2025年间平均水平的8倍[58] - **主要产品**: - **Claude Code**:截至2026年2月ARR达25亿美元,周度下载量超1,100万次,已从终端工具演进为支持多入口的工程平台[61][63][64] - **Codex (OpenAI)**:2026年6月初公布周活跃用户达500万人,较3月底增长约150%,企业营收占公司整体营收40%,正致力于打造统一的AI工作空间[65][67] - **Cursor**:被SpaceX收购前,于2026年2月实现超20亿美元ARR(较2025年11月翻倍),其自研模型Composer 2.5在部分Coding评测中接近头部模型水平,且具备更优性能成本比[70][75][76] - **应用价值**:不仅提升开发效率(如Rakuten公司新功能交付周期从24天缩短至5天),还能赋能非技术人员完成端到端应用开发,并通过移动端实现远程任务管理[80][81][83][84] - **垂类流程Agent**:在客服与销售、法律、医疗、金融服务等特定领域执行端到端流程,推动Agent转向“数字劳动力”,商业模式转向按任务量、结果收费[6][48][85] - **客服与销售(Sierra)**:采用“按结果计费”模式,2026年2月ARR达1.5亿美元,5月完成融资后估值超150亿美元,产品构建了多层级Agent服务平台[89][92][93][99] - **法律(Harvey)**:截至2025年底ARR达1.9亿美元,2026年3月融资后估值110亿美元,平台运营超25,000个定制Agent,服务大型律所和企业[101][103] - **医疗(OpenEvidence)**:对医生免费,通过药企广告等变现,被美国超40%医生使用,截至2025年底ARR超1亿美元,2026年1月融资后估值120亿美元[106] - **金融服务(AlphaSense)**:截至2026年第一季度ARR达6亿美元,2026年6月融资后估值75亿美元,覆盖超5亿份专业商业资料,服务超7,000家企业客户[109] - **Computer Use/GUI Agent**:指模型能够像人类一样观察并操作计算机界面,通过点击、输入等方式完成网页和桌面软件中的多步骤任务,提升了Agent的非标准化泛化能力[48][110] - **广泛布局**:Anthropic、OpenAI、Google、Microsoft等厂商均积极布局此类功能[112][113] - **产品形态演进**:功能正从独立产品内化为Agent的通用能力模块,并采用分层执行策略(连接器优先 > 浏览器操作 > Computer Use兜底)以平衡效率与泛化能力[115][120][121] - **未来演进方向**:Agent正从人机协同向自主工作发展,未来可能形成Multi-Agent分工协作,并最终朝向“AI自我迭代AI”的智能生产系统演进[6][46][126] 行业规模与市场表现 - **行业规模**:报告覆盖股票284只,总市值4471.1十亿元,流通市值4012.4十亿元[3] - **市场表现**:近12个月绝对收益为12.1%,但相对表现落后基准19.4个百分点[5]