OpenAI深夜祭出GPT-5.4！原生操控电脑，打工人悬了

产品发布与市场定位 - OpenAI发布下一代旗舰模型GPT-5.4，包括面向ChatGPT端的GPT-5.4 Thinking与GPT-5.4 Pro，以及面向开发者的API与Codex接入版本[2] - 此次版本号从GPT-5.2直接跳至GPT-5.4，标志着一次“推理+编程”的合流式跨越[4] - 此次发布被视为OpenAI对竞争对手Gemini 3.1 Pro和Claude Opus 4.6的全面反击，旨在重新确立行业领导地位[67][68] 核心性能与基准测试结果 - 在GDPval知识工作任务基准测试中，GPT-5.4取得83.0%的胜率，追平甚至超越行业顶尖人类专家，较上一代GPT-5.2的70.9%提升显著[6][28] - 在SWE-Bench Pro软件工程基准测试中，GPT-5.4以57.7%的准确率位列第一，超越GPT-5.3 Codex的56.8%[6][37] - 在FrontierMath高级数学基准测试中，GPT-5.4 Pro以50.0%的准确率位列第一，大幅领先于Claude Opus 4.6的40.7%和Gemini 3.1 Pro的36.9%[11] - 在ARC-AGI-2抽象推理基准测试中取得83.3%的新高，超越Gemini 3.1 Pro的77.1%和Claude Opus 4.6的68.8%[6] 原生计算机使用能力 - GPT-5.4是首个拥有原生计算机使用能力的通用模型，可通过代码或直接“观看”屏幕截图来操控鼠标键盘，执行发邮件、填表格等任务[13][19] - 在OSWorld-Verified计算机使用基准测试中，GPT-5.4取得75.0%的成功率，超越人类水平的72.4%及此前领先的Claude Opus 4.6的72.7%[11][13] - 在WebArena-Verified网页浏览测试中，同时使用DOM和截图时成功率达67.3%，领先于GPT-5.2的65.4%[24] - 在仅靠截图的Online-Mind2Web测试中，成功率达92.8%，断崖式领先于ChatGPT Atlas智能体模式的70.9%[24] 视觉与多模态能力升级 - 模型引入“原始”和“高”图像输入细节级别，支持最高1024万总像素的全保真度感知，在API早期测试中定位、图像理解和点击准确性大幅提升[26] - 在MMMU-Pro多学科多模态理解测试中，GPT-5.4（未使用工具）成功率达81.2%，优于GPT-5.2的79.5%[24] - 视觉感知提升带来更强的文档解析能力，在OmniDocBench上，GPT-5.4的平均误差为0.109，优于GPT-5.2的0.140[24] 知识工作与办公能力 - 在模拟初级投资银行分析师的内部电子表格建模测试中，GPT-5.4平均得分87.3%，远高于GPT-5.2的68.4%[33] - 人类在68.0%的情况下更偏好GPT-5.4生成的PPT，因其美感、视觉丰富度和图像使用效率更高[35] - 公司称GPT-5.4是迄今为止最讲求事实的模型，相对于GPT-5.2，其单独声明出错的概率降低了33%，整个回复包含任何错误的概率降低了18%[37] 编程与开发效率 - GPT-5.4完整继承了GPT-5.3-Codex的编程能力，实现了推理与编程能力的统一[37] - 模型是OpenAI迄今Token效率最高的推理模型，解决相同问题所需Token大幅减少，在Codex的/fast模式下，Token生成速度最高可提升1.5倍[39] - 通过API，开发者可使用“优先处理”获得更快的速度，模型在复杂前端任务上生成的界面美观且功能完备程度远超此前模型[41] 工具使用与智能体能力 - 引入“工具搜索”功能，可根据需要自动查找并加载工具定义，在Scale的MCP Atlas基准测试中，在保持相同准确率的同时将总Token使用量减少了47%[50] - 在Toolathlon智能体工具使用基准测试中，GPT-5.4以54.6%的准确率领先于GPT-5.3-Codex的51.9%和GPT-5.2的45.7%，且使用轮次更少[54] - 在延迟敏感的τ²-bench电信客服任务上大幅领先，在开启高推理强度的情况下准确率可达98.9%[57] 网络搜索与研究能力 - 在BrowseComp智能体网络浏览基准测试中，GPT-5.4 Pro以89.3%的准确率实现反超，领先于Claude Opus 4.6的84.0%，标准版也达到82.7%[61] - 模型更擅长从网络多源头整合信息，能进行持久的多轮搜索以筛选最相关来源，并将信息综合成条理清晰、推理严密的答案[63] - 改进了深度网络研究能力，在处理需要长时间思考的问题时能更好地保持上下文[63] 交互与用户体验 - GPT-5.4 Thinking在思考过程中允许用户随时介入调整方向，而不会打断其思路，一次对话即可交付结果[15][65] - 针对复杂查询，模型会在回复前梳理工作计划，用户可在其运行中途直接调整方向或补充说明，无需推倒重来[66] - 该功能已在网页和Android应用上线，iOS版即将推出[66] 技术集成与成本 - 模型继承了GPT-5.3-Codex的全部编程基因，并新增了100万token上下文和原生工具搜索，打通推理、编程、操控全链路[14] - 定价方面，GPT-5.4输入价格为2.5美元/百万token，输出价格为15美元/百万token；Pro版本输入为30美元/百万token，输出为180美元/百万token[17] 应用演示与潜力 - 仅凭提示词，GPT-5.4可生成完整的主题公园模拟经营游戏，包含路网、设施、景观及资金客流等完整系统[42] - 模型能生成包含移动、行动、站位等完整系统的回合制网格战斗游戏，并通过自动化测试验证界面交互与体验[44] - 能生成可自由飞行的超写实3D场景（如金门大桥），支持多角度自动巡航测试与持续迭代校准[46]