奥特曼小号泄密:OpenAI代码工作100%交给Codex!工程师才揭底Codex“大脑”运行逻辑,碾压Claude架构?
AI前线·2026-01-26 15:19

OpenAI 技术架构与工程实践深度剖析 - 公司通过一个PostgreSQL主库和近50个只读副本的架构,支撑了ChatGPT等核心产品8亿用户和每秒数百万次查询的访问需求,过去一年负载增长超10倍 [29] - 生产环境中,数据库客户端99分位延迟稳定在十几毫秒,服务可用性达到五个九标准,过去12个月内仅出现一次零级严重故障 [29] - 公司正将可分片的写密集型负载迁移至CosmosDB等系统,并探索级联复制、分片架构等方案以应对持续增长的基础设施需求 [30][31] Codex 智能体循环框架揭秘 - Codex智能体循环的核心是协调用户、模型及工具调用的“智能体循环”,该框架支撑了包括Codex CLI、Cloud和VS Code插件在内的一系列软件智能体产品 [5] - 循环流程为:接收用户输入并构建提示词 -> 查询模型进行推理 -> 根据模型输出决定生成最终回复或执行工具调用 -> 将工具输出附加至提示词并再次查询模型,直至模型生成最终“助手消息” [6][7] - 智能体循环的输出不仅限于文本消息,核心输出通常是在用户设备上编写或编辑的代码 [7] 响应API与提示词工程优化 - 响应API通过接收包含指令、工具、输入等核心参数的JSON负载来驱动智能体循环,由服务器决定如何将信息组织为模型可处理的提示词格式 [12][15] - 提示词中不同角色(系统、开发者、用户、助手)的内容具有不同权重,Codex会主动拼接一套精心设计的提示词结构,用户输入通常出现在末尾 [12][13] - 为提升性能,公司重点优化了提示词缓存机制,当提示词存在完全匹配的前缀时,模型采样的时间复杂度可从二次方降至线性 [23] - 可能导致缓存未命中的操作包括:在对话中修改工具列表、更换目标模型、修改沙箱配置或当前工作目录等 [24][25] 上下文窗口管理与对话压缩策略 - 所有模型都存在上下文窗口限制,智能体可能在单次对话中发起数百次工具调用,存在耗尽上下文容量的风险 [11] - 通用管理策略是当词元数量超过阈值时对对话进行压缩,即用一个更精简、能代表对话核心内容的新条目列表替代原有输入 [27] - 早期压缩需用户手动触发,后响应API新增了专用的/responses/compact端点以实现高效自动压缩,Codex会在词元数超过auto_compact_limit时自动调用 [27] - 在长对话中,为保持缓存命中率,针对配置变更(如工作目录改变)会通过在输入中追加新消息来体现,而非修改早期消息 [24][26]