OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

文章核心观点 - 文章对OpenAI新发布的GPT-5.4 mini和nano模型进行了全面评测，核心观点是：尽管新模型在特定任务上相比前代有性能提升和速度优势，但其在综合基准测试中的排名并不突出，且与竞争对手相比，在性价比和部分性能上存在劣势，市场初期反响平平 [1][2][43] GPT-5.4 mini/nano 模型的市场定位与性能表现 - 新模型主打快速和经济，专门针对编程、计算机操作、多模态理解以及子代理（subagent） 进行了优化 [8] - 相比前代GPT-5 mini，新版mini和nano在性能上有提升，同时运行速度提升超过两倍 [9] - 在多个专业评测中，mini/nano模型与满血版GPT-5.4的差距已经不大，性能上也基本与谷歌、Anthropic的轻量模型持平 [10] - 例如，在SWE-Bench Pro（软件工程）测试中，GPT-5.4得分为57.7%，GPT-5.4 mini为54.4%，GPT-5.4 nano为52.4%，而GPT-5 mini为45.7% [10] - 在OSWorld-Verified（计算机使用）测试中，GPT-5.4为75.0%，GPT-5.4 mini为72.1% [10][25] - GPT-5.4 nano是系列中最小、最经济的版本，适合速度和成本敏感的任务，如分类、数据提取、排序及简单的辅助编程任务 [13] - 这两个新模型适合延迟直接影响产品体验的工作负载，例如编码助手、子代理、屏幕截图解析、多模态应用 [14][15] 模型在综合基准测试中的排名与竞争对比 - 根据公开的大语言模型评测基准Vals，GPT-5.4 mini在综合排名中仅位列第13名，其准确率为57.88% ± 1.97，优于OpenAI半年前发布的GPT-5（排名第16，准确率56.10% ± 2.00）[2][3] - 在拓扑证明测试中，GPT-5.4 mini和nano的表现中规中矩，分别排行第九和第十，不如早前发布的Kimi、Qwen、DeepSeek等模型 [4] - 具体得分：GPT-5.4 mini为26分（第9名），GPT-5.4 nano为23分（第10名）[5] - 横向对比显示，竞争对手模型在性价比上可能更具优势 - 有网友指出，排行第12的Kimi 2.5比新出的5.4 mini便宜一倍多，延迟还更低 [4] - 在AI Benchy Compare评测中，Gemini 3.1 Flash Lite的综合得分（8.10）和成本效益均显著优于GPT-5.4 mini和nano [18] - GPT-5.4 nano成本效益（Cost Per Result）为0.769，总成本（TOTAL COST）为$0.077；GPT-5.4 mini成本效益为3.610，总成本为$0.289；而Gemini 3.1 Flash Lite成本效益为0.413，总成本仅为$0.0507 [18] 模型定价策略与成本效益分析 - OpenAI官方表示，在输出tokens上，性能近似的mini版本比GPT-5.4便宜三倍，nano版本则便宜十二倍 [6] - 然而，若与旧版GPT-5 mini对比，同为mini档的模型，价格却上涨了大约三倍 [6] - GPT-5.4 mini定价：输入每百万tokens $0.75，输出每百万tokens $4.50 [7][16] - GPT-5.4 nano定价：输入每百万tokens $0.20，输出每百万tokens $1.25 [7][16] - GPT-5 mini定价：输入每百万tokens $0.25，输出每百万tokens $2.00 [7] - 在实际任务中，nano模型展现出显著的成本节省 - 在分类任务中，nano准确率达70%，成本比GPT-5.4降低十二倍；调用超过一万次时，GPT-5.4花费约20.30美元，GPT-5.4 nano仅花费1.64美元，节省幅度约91.9% [29][31] - 在翻译任务中，nano得分55分（GPT-5.4为63分），超万次调用后节省幅度仍达到91.3% [32] - 在写作任务中，mini版本成本比满血版低约六成；超1万次调用时，mini花费29.61美元，nano仅花费10.30美元 [34] - 在图片描述任务中，nano模型使用2751个输入tokens和112个输出tokens，费用仅为0.069美分 [38] 模型在特定应用场景下的实际表现 - 在编程和Agent任务中，新模型能够低延迟完成代码修改、调试循环和库导航，快速迭代 [19][20] - 在子代理场景中，开发者可将较小任务并行委派给mini子代理（如搜索代码库、处理文档），随着小型模型速度提升，这种模式价值凸显 [23] - 在计算机操作和多模态任务中，mini能够快速解析复杂用户界面截图，高效完成操作任务 [24] - 在创意任务上，如生成SVG图，nano和mini与满血版GPT-5.4仍有差距，但完成基础创作任务完全可行 [39] - 有用户实际测试后给予高度评价，认为在一些真实场景任务中，新模型更便宜、更快、也更好用 [28] 行业与市场反应 - 文章指出，在当前的“龙虾热”（行业热潮）中，全球所有模型厂家都在涨价，OpenAI也不例外 [7] - 不少网友对新模型持保留态度，认为对比基准是老版本，而非其他厂家的新模型，甚至直言换新“还真没必要” [5] - OpenAI总裁发布新模型的评论区，最火热的讨论并非关于模型能力或价格，而是刷屏要求“让4o回来！” [45][47]