狙击Gemini 3！OpenAI发布GPT-5.1-Codex-Max

文章核心观点 - OpenAI发布GPT-5.1-Codex-Max新模型，在AI编程领域实现多项技术突破，包括突破上下文窗口限制、提升任务处理效率和延长连续工作时间，以应对来自Gemini 3等竞争对手的压力 [1][2][9][34] 模型性能提升 - 新模型在METR指标上达到新SOTA，有50%的概率能完成一项原本需要人类2小时42分钟完成的软件工程任务，比GPT-5对标的时间多出25分钟 [11][12] - 在SWE-bench Verified测试中，相同medium推理力度下，新模型性能优于GPT-5.1-Codex，且思考token使用量减少30% [18] - 针对非延迟敏感任务推出xhigh推理力度选项，通过更长的思考时间以获得更优答案 [20] 超长上下文处理能力 - 模型原生支持压缩功能，在接近上下文窗口限制时可自动压缩对话以获得新窗口，从而突破限制实现跨窗口连贯工作 [22][23] - 在内部评估中，模型能一次独立运行超过24小时，连贯处理数百万token的任务 [25] - 该能力使其能直接处理书籍、长文档分析等超长篇幅任务，避免信息割裂，并支撑高负载、长周期的持续工作 [26][27][28] 实际应用与部署 - 新模型在PR创建、代码审查等实际软件工程任务中训练，推理更快更有效，并且是OpenAI首个支持Windows环境的模型 [16] - 目前已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用，API接口即将上线 [30] 行业竞争格局 - 行业内在AI编程赛道竞争激烈，Claude Code在速度上具有优势，但Claude与Codex的组合可能更具竞争力 [31][32][33] - 同期多家公司发布新模型，包括Gemini 3和Grok 4.1 Fast，显示出行业快速迭代的趋势 [34] 其他产品发布 - OpenAI同时低调发布GPT-5.1 Pro版本，第三方测评显示其在指令遵循方面有更好表现 [36][37][38]