GPT-5.4一周狂赚10亿美元ARR!一句嗨烧掉80刀,效率却飙升32倍
量子位·2026-03-17 12:13

核心观点 - OpenAI最新发布的GPT-5.4模型在商业上取得巨大成功,上线一周即带来10亿美元的年化净新增收入,并展现出远超前代模型的智能水平和任务效率,但其使用成本也显著更高 [1][4][28] 商业表现与市场影响 - 收入增长迅猛:GPT-5.4上线一周,每天处理约5万亿token,带来10亿美元年化净新增收入 [1] - 流量激增:其日均流量已超过OpenAI一年前整个API的总量 [2] - 处理规模巨大:每天处理的token量相当于超过4500万本完整的《红楼梦》(每本约110万token) [3] 模型成本分析 - 单次使用成本高昂:有案例显示,仅对模型说一句简单的话就花费了80美元 [6] - 基准测试成本领先:完成整个智能指数测试的成本约为2951美元,比GPT-5.2 (xhigh)(约2304美元)高出约28%,是Gemini 3.1 Pro Preview成本(约892美元)的3倍以上 [13][14] - token消耗量大:GPT-5.4在测试中花费了约1.2亿个输出token,比GPT-5.3 Codex (xhigh)多约55%,是Gemini 3.1 Pro Preview(5700万token)的大约2倍 [15][16] - 定价更高:GPT-5.4的每百万token输入/输出价格为2.5美元/15美元,高于GPT-5.2的1.75美元/14美元和Gemini 3.1 Pro Preview的2美元/12美元 [17] 效率与性能提升 - 任务成本大幅下降:在ARC-AGI基准测试中,GPT-5.4 (High)达到90%准确率的每个任务成本仅为0.37美元,相比3个月前效率提升了32倍 [26][27] - 性价比显著:尽管单token成本更高,但由于工作效率的指数级提升,完成相同准确率任务的总体成本更低 [18][21][28] - 准确率对比:在ARC-AGI-1测试中,GPT-5.4 (High)以0.37美元的成本达到90%准确率,而GPT-5.2 Pro (xhigh)以11.64美元的成本达到90.5%的准确率 [23][26] 技术能力与基准测试 - “大一统”模型:GPT-5.4是首个融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文的模型 [30] - 多项基准领先:在多个关键基准测试中保持领先,包括计算机使用(OSWorld-Verified: 75.0%)、网页任务(WebArena-Verified: 67.3%)、知识工作(GDPval: 83.0%)、代理浏览(BrowseComp: 82.7%)、软件工程(SWE-Bench Pro: 57.7%)、科学推理(GPOA Diamond: 92.8%)、高级数学(FrontierMath: 47.6%)和代理工具使用(Toolathlon: 54.6%) [31][32] - 超越人类表现:在44种不同的工作岗位上,有83%的概率胜过人类,包括律师、会计师、财务分析师等 [33] 原生计算机操作能力 - 界面理解与操作:模型原生支持通过截图理解软件界面,并执行鼠标点击和键盘输入等操作 [38] - 自动化任务:展示出可自行发送邮件、安排日程、处理批量数据录入(如向十个Web表单提交信息)的能力 [39] - 创造性应用:用户利用其计算机操作能力进行交互式剧本创作,生成更连贯、细节更丰富的场景,并能在Microsoft Paint中通过搜索、截图和导入图片的方式绘制特定标志 [41][43][44] - 操作原理:所有计算机操作仅基于屏幕截图和基本工具调用(点击、拖动、按键),无需专用计算机API [46]