文章核心观点 - OpenAI发布GPT-5.1-Codex-Max新模型,在AI编程领域实现多项技术突破,包括突破上下文窗口限制、提升任务处理效率和延长连续工作时间,以应对来自Gemini 3等竞争对手的压力 [1][2][9][34] 模型性能提升 - 新模型在METR指标上达到新SOTA,有50%的概率能完成一项原本需要人类2小时42分钟完成的软件工程任务,比GPT-5对标的时间多出25分钟 [11][12] - 在SWE-bench Verified测试中,相同medium推理力度下,新模型性能优于GPT-5.1-Codex,且思考token使用量减少30% [18] - 针对非延迟敏感任务推出xhigh推理力度选项,通过更长的思考时间以获得更优答案 [20] 超长上下文处理能力 - 模型原生支持压缩功能,在接近上下文窗口限制时可自动压缩对话以获得新窗口,从而突破限制实现跨窗口连贯工作 [22][23] - 在内部评估中,模型能一次独立运行超过24小时,连贯处理数百万token的任务 [25] - 该能力使其能直接处理书籍、长文档分析等超长篇幅任务,避免信息割裂,并支撑高负载、长周期的持续工作 [26][27][28] 实际应用与部署 - 新模型在PR创建、代码审查等实际软件工程任务中训练,推理更快更有效,并且是OpenAI首个支持Windows环境的模型 [16] - 目前已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用,API接口即将上线 [30] 行业竞争格局 - 行业内在AI编程赛道竞争激烈,Claude Code在速度上具有优势,但Claude与Codex的组合可能更具竞争力 [31][32][33] - 同期多家公司发布新模型,包括Gemini 3和Grok 4.1 Fast,显示出行业快速迭代的趋势 [34] 其他产品发布 - OpenAI同时低调发布GPT-5.1 Pro版本,第三方测评显示其在指令遵循方面有更好表现 [36][37][38]
狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
量子位·2025-11-20 15:01