OpenAI最强编程模型登场，连续干活24小时，一次处理几百万token

模型发布与定位 - 公司发布新一代智能体编程模型GPT‑5.1‑Codex‑Max，该模型基于最新的推理模型打造，专门面向软件工程、研究、数学等复杂任务进行训练 [2] - 同时，公司将GPT-5 Pro升级为GPT-5.1 Pro，据称在写作、数据分析等方面能力更强 [2] - 该模型是公司训练的首个适用于在Windows环境里进行编程操作的模型 [3] 核心技术能力 - 模型能在单一任务中连贯处理上百万个token，跨多个上下文窗口运行，这得益于一项名为“压缩”的技术，可在接近上下文窗口限制时自动压缩上下文并保留重要信息 [2] - 模型能够独立工作数小时，在公司内部评估中甚至可针对同一任务连续工作24小时，持续迭代实现并修复测试失败 [3] - 在推理效率上，模型在中等推理强度下完成任务所使用的思考token比前代GPT‑5.1‑Codex少约30%，同时取得更高准确性，对于追求质量的任务还可开启超高强度推理 [5] 性能表现与成本效益 - 在打造一个完全运行在浏览器中的CartPole强化学习沙箱时，模型所使用的token数量为27k，而前代模型用量为37k [8] - 公司预计，token效率的提升可为开发者带来实际的成本节省 [5] - 与竞争对手相比，用户测试显示模型在创建SVG等任务中生成的元素包含更多细节且更逼真 [10] 应用案例与用户体验 - 模型已可用于CLI、IDE扩展、云端和代码审查，API访问也即将推出 [6] - 模型成功打造了多个网页应用，包括CartPole强化学习沙箱、太阳系重力模拟器以及帮助理解斯涅尔定律的光线折射模拟器 [6][8] - 用户体验反馈显示，模型相比GPT-5.1-Pro更勤快、速度更快，且展现出更强的主动性和规划能力，例如会“盯着问题看了5分钟”再决定处理 [12] 行业影响与未来展望 - 新一代编程模型正从简单的代码生成器转向能够持续工作、自动调试、主动规划的编程智能体，其长时推理、上下文压缩、自我修复等能力使其能独立完成项目级任务 [15] - 随着运行成本下降和安全沙箱强化，未来软件开发方式可能从“写代码”转向“描述需求+审核结果”，智能体有望承担更多实现与迭代工作 [15]