OpenClaw绝配！GPT-5.4问世，AI能力开始大一统，就是太贵

GPT-5.4核心发布与核心能力 - OpenAI发布GPT-5.4，其核心创新是引入了原生计算机使用能力，模型能够直接操作软件、使用工具、浏览网页、执行工作流程并规划跨应用程序的复杂任务，最多可处理100万个上下文token[2][7] - 新模型将推理、编码、智能体和计算机控制能力融合在同一个前沿模型中[7] - 此次发布恰逢知名开发者Peter Steinberger加入OpenAI不久，其理念（如OpenClaw架构）被认为对GPT-5.4的设计有显著影响，例如实现了工具定义的按需查找，而非全部塞入prompt[4][6] 产品定价与市场定位 - GPT-5.4已在OpenAI的API和Codex中提供，并正在ChatGPT中逐步向Plus、Team和Pro用户推出，取代了GPT-5.2 Thinking模型[7] - OpenAI同时推出了GPT-5.4 Pro，面向Pro和企业版用户，专为追求极致性能的复杂任务设计[7] - API定价方面，GPT-5.4的输入价格为**$2.50 / 百万token**，输出价格为**$15 / 百万token**，均高于GPT-5.2[8] 性能基准测试结果 - 计算机使用：在OSWorld-Verified测试中，GPT-5.4取得75.0% 的成功率，远超GPT-5.2的47.3%，也超越了人类的72.4%[12][13] - 知识工作：在GDPval测试中，GPT-5.4在83.0% 的比较中达到或超过行业专业人士水平，优于GPT-5.2的70.9%[16][40] - 网络搜索：在BrowseComp测试中，GPT-5.4比GPT-5.2提升17% 至82.7%，而GPT-5.4 Pro达到89.3%，创下新高[35][40] - 软件工程：在SWE-Bench Pro测试中，GPT-5.4取得57.7% 的成绩，与GPT-5.3-Codex的56.8% 持平或更优[22][40] - 高级数学：在FrontierMath Tier 4（最难的数学基准）测试中，GPT-5.4 Pro取得38% 的成绩，远超一年前最佳成绩的2% 以及当前最佳开源模型的4.2%[8] - 工具使用：在Toolathlon测试中，GPT-5.4取得54.6% 的准确率，优于GPT-5.2的45.7%[32][40] 关键技术改进与效率提升 - 工具搜索功能：模型可按需查找工具定义，而非将所有工具定义预先加载。在评估的250项任务中，此功能在保持相同准确率的同时，将总token使用量减少了47%[29][30] - token效率：GPT-5.4是OpenAI目前token效率最高的推理模型，与GPT-5.2相比，解决问题所需的token数量显著减少，意味着更低的费用和更快的速度[38] - 处理速度：在Codex中启用/fast模式后，GPT-5.4的token处理速度最高可提升1.5倍[24] - 视觉与文档解析：在MMMU-Pro测试中，GPT-5.4在不使用工具的情况下取得81.2% 成功率，优于GPT-5.2的79.5%；在OmniDocBench测试中，其平均误差为0.109，优于GPT-5.2的0.140[20] 用户体验与工作流程优化 - 在ChatGPT中，GPT-5.4 Thinking可以预先提供思考计划，用户可在运行过程中随时调整方向，以获得更符合需求的答案[37] - 模型改进了深度网络搜索，尤其是在处理高度具体的查询时，并能更好地保留需要长时间思考的问题的上下文信息[37] - 模型增强了创建和编辑电子表格、演示文稿和文档的能力，其生成的演示文稿因更强的美观性、更丰富的视觉效果和更高效的图像生成功能而获得人类评分者青睐[40] 行业影响与未来展望 - 行业观点认为，GPT-5.4具备原生计算机使用能力，对于开发者和智能体而言是一次重大飞跃[12] - OpenAI研究科学家Noam Brown表示，GPT-5.4在计算机应用和经济价值任务上已取得巨大进步，预计今年内AI能力将继续大幅提升[40] - 有观点认为，ChatGPT的能力很快就会比最好的咨询公司、投资银行和律师事务所都更出色，甚至有人认为GPT-5.4 Pro达到了AGI级别的智能[41][44]