OpenAI发布最强专业模型GPT-5.4，自动操作电脑，插件支持AI玩转Excel和金融分析

模型发布与核心定位 - 公司发布全新旗舰基础模型GPT-5.4，定位为“迄今能力最强、最高效的专业工作前沿模型”，重点面向企业办公与复杂知识工作场景 [2] - 模型在ChatGPT、API以及开发工具Codex中同步上线，标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统 [2][4] - 公司同时推出两个版本：更擅长复杂推理的GPT-5.4 Thinking和高性能的GPT-5.4 Pro，分别面向付费用户和高端企业用户 [4] 原生电脑操控能力 - GPT-5.4首次在通用模型中内置原生级“电脑操作”功能，能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务 [2][3] - 该功能可通过API和Codex实现，支持智能体跨软件执行复杂工作流，并可与电子表格、金融分析工具等企业应用深度整合 [2][3][8] - 在桌面导航基准测试OSWorld-Verified中，GPT-5.4成功率达75.0%，超越人类基准水平72.4%，较前代GPT-5.2的47.3%大幅跃升 [4][8] - 在网络搜索能力测试BrowseComp中，GPT-5.4得分82.7%，较GPT-5.2的65.8%提升17个百分点，GPT-5.4 Pro更以89.3%创下该测试最高评分纪录 [5][8] - 早期测试显示，在地产科技公司覆盖约3万个房产税门户的测试中，GPT-5.4首次尝试成功率达95%，三次内成功率达100%，完成速度加快约3倍，tokens消耗减少约70% [10] 工具搜索机制与效率提升 - GPT-5.4在API中引入“工具搜索”机制，模型仅接收工具的轻量化列表，仅在实际需要时才按需检索完整定义，改变了此前每次请求都需预加载全部工具定义的方式 [12][13] - 新机制大幅降低了token消耗和延迟，在使用Scale的MCP Atlas基准测试的250项任务中，工具搜索模式在保持相同准确率的前提下，总token用量减少47% [13] - 公司CEO表示，GPT-5.4在该公司横跨数百个高级真实工作流的工具使用基准测试中表现优异，是迄今为止最具持续性的模型 [15] 金融与企业场景应用 - 同步推出面向企业和金融机构的“OpenAI金融服务”套件，核心产品是深度集成至微软Excel和谷歌表格的ChatGPT for Excel和Google Sheets（测试版） [4][16][17] - 该套件整合了FactSet、MSCI、Third Bridge和Moody‘s等数据合作伙伴，并推出可复用的Skills功能，覆盖盈利预览、可比公司分析、DCF估值分析及投资备忘录撰写等高频金融工作 [17] - 在内部投行基准测试中，GPT-5.4 Thinking的得分从GPT-5的43.7%跃升至88.0% [4][17] - 在模拟初级投行分析师电子表格建模任务的测试中，GPT-5.4平均得分87.3%，远高于GPT-5.2的68.4% [17] - 投资公司的AI解决方案主管表示，GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点 [6] 专业知识与任务性能 - 在衡量真实职场输出的GDPval测试中，GPT-5.4在83.0%的比较中达到或超越行业专业人士水平，高于GPT-5.2的71.0% [19] - 在职业知识测试中，GPT-5.4得分达到或超越专业人士水平 [2] - 在演示文稿质量评估中，人类评审在68.0%的情况下更偏好GPT-5.4的输出 [22] - 在幻觉和事实错误控制方面，GPT-5.4是其“迄今最具事实准确性的模型”，在特定测试集上，单项陈述错误率较GPT-5.2降低33%，完整回应中出现任意错误的概率降低18% [22] - 在编程能力方面，GPT-5.4在SWE-Bench Pro上的表现与GPT-5.3-Codex持平或更优，且在各推理强度设置下延迟更低 [5][22] 技术规格与用户覆盖 - GPT-5.4提供最高100万token的上下文窗口，是公司迄今提供的最大上下文容量，适合跨步骤长链路任务的规划、执行与验证 [2][24] - 在ChatGPT端，GPT-5.4 Thinking向Plus、Team及Pro用户开放，GPT-5.4 Pro仅限Pro及Enterprise计划用户使用 [24] - 在API端，GPT-5.4以 gpt-5.4 标识符提供，GPT-5.4 Pro以 gpt-5.4-pro 提供，两者均可在Codex开发平台使用，API最大输出为12.8万token [24] 定价策略 - API定价相比GPT-5.2有所上调：GPT-5.4输入为2.50美元/百万token，输出为15美元/百万token；GPT-5.4 Pro输入为30美元/百万token，输出为180美元/百万token [26][27] - 公司解释提价原因包括：在复杂任务上能力更强、来自研究路线图的重大技术进步，以及更高效的推理机制在相同任务上消耗更少推理tokens，一定程度上抵消了单价上升的影响 [28] - 公司表示，即便提价，GPT-5.4的定价仍低于同等能力的竞品前沿模型 [28]