Zed 为什么不用自己造 Agent?OpenAI 架构师给出答案:Codex 重划 IDE × Coding Agent 的分工边界
AI前线·2026-01-21 15:00

Coding Agent的构成与核心架构 - 一个Coding Agent由三部分组成:用户界面、模型和Harness(工具集)[4] - Harness是直接与模型交互的核心Agent循环,由一系列提示和工具组合而成,为模型提供输入和输出[4] - 将模型与Harness一同开发,能更好地理解模型的行为,这是Codex作为集成系统的优势所在[5][10] 构建高效Harness面临的挑战 - 新工具适配问题:为Agent提供模型从未见过或不擅长使用的创新工具时,需要花费时间根据模型特点调整Prompt[8] - 延迟与用户体验:模型处理问题需要时间,需设计提示以避免延迟过长,并决定如何向用户展示模型的思考过程[9] - 上下文窗口与数据压缩:管理上下文窗口和数据压缩是一大难题,需决定何时触发压缩及重新注入数据[9][12] - API接口变化:API接口不断变化(如完成功能、响应功能),需确保模型能熟练使用新工具以发挥最大智能[9] - Prompt设计复杂性:将模型适配到Harness中需要大量的Prompt设计,需理解模型的“习惯”(即训练形成的解决问题方式)[9][10] Codex作为Harness/Agent的功能与能力 - Codex被设计成适用于各种编程环境的Agent,可作为VS Code插件、CLI工具使用,或通过云端调用[12] - 核心功能包括:将提示想法转化为可运行代码、在代码仓库中导航并编辑文件、执行命令和任务、审查PR[12] - Harness需处理复杂任务:并行工具调用、线程合并、安全性(沙箱管理、权限设置)、数据压缩和上下文优化[12] - 能力扩展:Codex不仅能处理Coding任务,任何能通过命令行工具表达的任务(如整理文件、分析CSV数据)都能执行[13] 利用Codex构建自定义Agent的模式与集成 - 关键模式是使Harness成为新的抽象层,开发者无需在每次模型升级时优先优化提示和工具,可将精力集中于产品的差异化功能[5][15] - Codex提供多种集成方式:作为SDK通过TypeScript或Python库调用、提供GitHub动作自动合并PR冲突、可添加到AgentSDK并提供MCP连接器[15] - 企业级应用:可构建能为每个客户即时编写插件连接器的软件,实现完全可定制化,并具备自我对话与自动修复bug的能力[17] - 合作伙伴案例:GitHub利用Codex SDK成功集成;Cursor团队通过将其Harness与开源的Codex CLI对接,优化了系统性能[18] Codex的发展现状与未来展望 - Codex是增长最快的模型之一,每周服务数十万亿个token,该数字自开发日以来已翻了一番[18] - 未来模型将变得更强大,能处理更长周期的任务且无需监督,对新模型的信任度将进一步提高[18] - 未来重点将是处理庞大代码库和非标准库,支持在闭源环境中工作并匹配现有模板和实践[5][19] - SDK将持续发展,以更好地支持模型能力,使模型能在执行任务中不断学习,并为解决终端问题的Agent提供更多支持[19]