Workflow
世界知识
icon
搜索文档
GPT-5.4发布,最适合OpenClaw的天选模型登场了。
数字生命卡兹克· 2026-03-06 06:38
GPT-5.4模型发布与性能概览 - OpenAI发布了GPT-5.4 Thinking和GPT-5.4 Pro模型,现已集成至ChatGPT、API和Codex平台,该模型融合了公司在推理、编码和智能体工作流方面的最新进展[1] - 在关键基准测试中,GPT-5.4 Thinking在GDPval知识工作任务评估中取得83.0%的得分,优于Claude Opus 4.6的78.0%和GPT-5.3 Codex的70.9%[13][15][16] - 在软件工程能力测试SWE-Bench Pro中,GPT-5.4 Thinking以57.7%的得分与GPT-5.3 Codex的56.8%基本持平[13][17] - 在操作系统使用能力测试OSWorld-Verified中,GPT-5.4 Thinking获得75.0%的得分,超过Claude Opus 4.6的72.7%[13][19] - 在智能体核心能力测试Toolathlon中,GPT-5.4 Thinking以54.6%的得分显著领先于Claude Opus 4.6的44.8%[13][22][23] GPT-5.4的模型能力定位与优势 - GPT-5.4被定位为优秀的智能体基座模型,其能力构成被概括为:GPT-5.3 Codex级别的代码能力、超越GPT-5.2的世界知识、更强的工具使用能力以及极具成本效益的Codex订阅额度[11][24] - 该模型解决了此前GPT-5.3 Codex“不说人话”和世界知识薄弱的痛点,同时保持了顶级的编程能力,使其在需要结合业务理解和代码执行的复杂任务中表现更佳[2][3][11][16] - 模型支持100万token的上下文窗口,较GPT-5.3的40万token有大幅提升,这对维持智能体在长任务中的上下文理解至关重要,尽管超过27万token后计费会翻倍[25] - GPT-5.4是OpenAI首个内置原生计算机使用能力的主线模型,能出色地编写通过Playwright等库操作计算机的代码,并能根据屏幕截图发出指令,实现了代码与视觉能力的结合[27] 技术特性与成本分析 - 新引入了“工具搜索”功能,模型不再一次性接收所有工具定义,而是按需查找并追加,OpenAI内部测试显示该配置在保持相同准确率的同时将总体token使用量减少了47%[30][31][34] - 发布了新的`playwright-interactive`技能,允许Codex以代码和视觉两种方式调试Web和Electron应用[27][28] - API定价方面,GPT-5.4的输入价格为每百万token 2.50美元,输出价格为每百万token 15美元,虽高于GPT-5.2,但显著低于Claude Opus 4.6的5美元/25美元(输入/输出)[38][39] - 对于大多数用户而言,通过20美元的ChatGPT Plus订阅即可使用GPT-5.4,并能利用Codex平台慷慨的额度,这相比必须通过昂贵API调用的Claude模型具有巨大成本优势[11][36][39] 市场影响与生态整合 - GPT-5.4的发布被视为对Claude Opus 4.6在智能体模型领域主导地位的有力挑战,其综合能力与成本优势可能改变开发者的模型选型偏好[2][11][39] - OpenAI对第三方工具调用Codex额度持开放支持态度,这与Anthropic封禁OpenClaw等行为形成对比,有利于其构建更开放的开发者生态[7][9] - 模型已迅速集成至ChatGPT和Codex平台,社区用户正积极推动其在OpenClaw等流行智能体框架上的支持,预计将很快完成适配[40][49][52] - 初步体验显示,GPT-5.4在自然语言表达上更接近“人话”,在任务理解和沟通上有了明显改善,尽管在部分领域(如前端审美、写作风格)与顶尖竞品相比仍有提升空间[42][43][45][47]