GPT-5.4核心发布与核心能力 - OpenAI发布GPT-5.4,其核心创新是引入了原生计算机使用能力,模型能够直接操作软件、使用工具、浏览网页、执行工作流程并规划跨应用程序的复杂任务,最多可处理100万个上下文token[2][7] - 新模型将推理、编码、智能体和计算机控制能力融合在同一个前沿模型中[7] - 此次发布恰逢知名开发者Peter Steinberger加入OpenAI不久,其理念(如OpenClaw架构)被认为对GPT-5.4的设计有显著影响,例如实现了工具定义的按需查找,而非全部塞入prompt[4][6] 产品定价与市场定位 - GPT-5.4已在OpenAI的API和Codex中提供,并正在ChatGPT中逐步向Plus、Team和Pro用户推出,取代了GPT-5.2 Thinking模型[7] - OpenAI同时推出了GPT-5.4 Pro,面向Pro和企业版用户,专为追求极致性能的复杂任务设计[7] - API定价方面,GPT-5.4的输入价格为**$2.50 / 百万token**,输出价格为**$15 / 百万token**,均高于GPT-5.2[8] 性能基准测试结果 - 计算机使用:在OSWorld-Verified测试中,GPT-5.4取得75.0% 的成功率,远超GPT-5.2的47.3%,也超越了人类的72.4%[12][13] - 知识工作:在GDPval测试中,GPT-5.4在83.0% 的比较中达到或超过行业专业人士水平,优于GPT-5.2的70.9%[16][40] - 网络搜索:在BrowseComp测试中,GPT-5.4比GPT-5.2提升17% 至82.7%,而GPT-5.4 Pro达到89.3%,创下新高[35][40] - 软件工程:在SWE-Bench Pro测试中,GPT-5.4取得57.7% 的成绩,与GPT-5.3-Codex的56.8% 持平或更优[22][40] - 高级数学:在FrontierMath Tier 4(最难的数学基准)测试中,GPT-5.4 Pro取得38% 的成绩,远超一年前最佳成绩的2% 以及当前最佳开源模型的4.2%[8] - 工具使用:在Toolathlon测试中,GPT-5.4取得54.6% 的准确率,优于GPT-5.2的45.7%[32][40] 关键技术改进与效率提升 - 工具搜索功能:模型可按需查找工具定义,而非将所有工具定义预先加载。在评估的250项任务中,此功能在保持相同准确率的同时,将总token使用量减少了47%[29][30] - token效率:GPT-5.4是OpenAI目前token效率最高的推理模型,与GPT-5.2相比,解决问题所需的token数量显著减少,意味着更低的费用和更快的速度[38] - 处理速度:在Codex中启用/fast模式后,GPT-5.4的token处理速度最高可提升1.5倍[24] - 视觉与文档解析:在MMMU-Pro测试中,GPT-5.4在不使用工具的情况下取得81.2% 成功率,优于GPT-5.2的79.5%;在OmniDocBench测试中,其平均误差为0.109,优于GPT-5.2的0.140[20] 用户体验与工作流程优化 - 在ChatGPT中,GPT-5.4 Thinking可以预先提供思考计划,用户可在运行过程中随时调整方向,以获得更符合需求的答案[37] - 模型改进了深度网络搜索,尤其是在处理高度具体的查询时,并能更好地保留需要长时间思考的问题的上下文信息[37] - 模型增强了创建和编辑电子表格、演示文稿和文档的能力,其生成的演示文稿因更强的美观性、更丰富的视觉效果和更高效的图像生成功能而获得人类评分者青睐[40] 行业影响与未来展望 - 行业观点认为,GPT-5.4具备原生计算机使用能力,对于开发者和智能体而言是一次重大飞跃[12] - OpenAI研究科学家Noam Brown表示,GPT-5.4在计算机应用和经济价值任务上已取得巨大进步,预计今年内AI能力将继续大幅提升[40] - 有观点认为,ChatGPT的能力很快就会比最好的咨询公司、投资银行和律师事务所都更出色,甚至有人认为GPT-5.4 Pro达到了AGI级别的智能[41][44]
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
机器之心·2026-03-06 11:28