GPT-5.4 发布,OpenClaw的能力要被取代?OpenAI 新模型不仅会自己用电脑,编程能力也拉满了
AI前线·2026-03-06 13:44

GPT-5.4模型核心能力升级 - 发布GPT-5.4,这是一款整合了过去在推理、顶级编程及原生计算机使用能力进展的新前沿模型,意味着AI能力的一次真正跃升[2] - 模型具备原生电脑操作能力,是其首个原生具备该能力的通用模型,能够进入桌面、访问网页,完成许多原本需要人工在电脑上操作的事情[3][5] - 模型支持100万token的上下文窗口,并显著提升了工具使用效率[2] 原生计算机操作能力详解与竞争格局 - 在OSWorld-Verified基准测试中,计算机使用能力从GPT-5.2的47.3%提升至GPT-5.4的75.0%[4] - 在BrowseComp基准测试中,代理浏览准确率从GPT-5.2的65.8%提升至GPT-5.4的82.7%[4] - 该能力由计算机操作能力与通过图像输入生成高质量网站的能力支撑,使用持久化CUA时,在某些场景下token使用量下降了三分之二[7] - 此能力与近期火热的OpenClaw项目思路接近,但GPT-5.4将电脑操作能力原生整合进模型,而OpenClaw是在模型外搭建框架,这改变了竞争重心[13][14] 性能基准与效率提升 - 在GDPval知识工作任务基准上,GPT-5.4取得83.0%的胜/平率,高于GPT-5.3-Codex的70.9%和Claude Opus 4.6的78.0%[4] - 在SWE-Bench Pro软件工程基准上,GPT-5.4达到57.7%,略高于GPT-5.3-Codex的56.8%[4][23] - 引入工具搜索功能,在Scale的MCP Atlas基准测试中,启用36个服务器测试250个任务时,总token使用量减少47%且不降低准确率[16] - 幻觉问题显著下降,单条事实陈述的错误概率比GPT-5.2降低33%,整体回答包含错误的概率降低18%[18] - 在Harvey的BigLaw Bench法律文档评测中,准确率达到91%[19] 编程能力增强 - GPT-5.4成为OpenAI的主力编程模型,在大多数任务中无需在ChatGPT与Codex之间选择[20] - 新增fast mode,在所有支持的模型上带来最高1.5倍的速度提升[24] - 在复杂前端任务上输出更精致且功能正确性更高[24] 定价策略与市场定位 - GPT-5.4 API定价为输入每100万token 2.50美元,输出每100万token 15.00美元,总计17.50美元[29][31] - GPT-5.4 Pro API定价为输入每100万token 30.00美元,输出每100万token 180.00美元,总计210.00美元[29][32] - 定价高于GPT-5.2的15.75美元,但低于Claude Opus 4.6的30.00美元和GPT-5.2 Pro的189.00美元[31][32] - 若输入token超过272,000,费用将按正常价格的2倍计算[32] - API最大输出长度保持在128,000 token[33] - 公司解释定价较高的原因包括复杂任务能力显著提升、技术路线图的研究突破以及更高的推理效率[34][36]

GPT-5.4 发布,OpenClaw的能力要被取代?OpenAI 新模型不仅会自己用电脑,编程能力也拉满了 - Reportify