文章核心观点 - 文章对OpenAI新发布的GPT-5.4 mini和nano模型进行了全面评测,核心观点是:尽管新模型在特定任务上相比前代有性能提升和速度优势,但其在综合基准测试中的排名并不突出,且与竞争对手相比,在性价比和部分性能上存在劣势,市场初期反响平平 [1][2][43] GPT-5.4 mini/nano 模型的市场定位与性能表现 - 新模型主打快速和经济,专门针对编程、计算机操作、多模态理解以及子代理(subagent) 进行了优化 [8] - 相比前代GPT-5 mini,新版mini和nano在性能上有提升,同时运行速度提升超过两倍 [9] - 在多个专业评测中,mini/nano模型与满血版GPT-5.4的差距已经不大,性能上也基本与谷歌、Anthropic的轻量模型持平 [10] - 例如,在SWE-Bench Pro(软件工程)测试中,GPT-5.4得分为57.7%,GPT-5.4 mini为54.4%,GPT-5.4 nano为52.4%,而GPT-5 mini为45.7% [10] - 在OSWorld-Verified(计算机使用)测试中,GPT-5.4为75.0%,GPT-5.4 mini为72.1% [10][25] - GPT-5.4 nano是系列中最小、最经济的版本,适合速度和成本敏感的任务,如分类、数据提取、排序及简单的辅助编程任务 [13] - 这两个新模型适合延迟直接影响产品体验的工作负载,例如编码助手、子代理、屏幕截图解析、多模态应用 [14][15] 模型在综合基准测试中的排名与竞争对比 - 根据公开的大语言模型评测基准Vals,GPT-5.4 mini在综合排名中仅位列第13名,其准确率为57.88% ± 1.97,优于OpenAI半年前发布的GPT-5(排名第16,准确率56.10% ± 2.00)[2][3] - 在拓扑证明测试中,GPT-5.4 mini和nano的表现中规中矩,分别排行第九和第十,不如早前发布的Kimi、Qwen、DeepSeek等模型 [4] - 具体得分:GPT-5.4 mini为26分(第9名),GPT-5.4 nano为23分(第10名)[5] - 横向对比显示,竞争对手模型在性价比上可能更具优势 - 有网友指出,排行第12的Kimi 2.5比新出的5.4 mini便宜一倍多,延迟还更低 [4] - 在AI Benchy Compare评测中,Gemini 3.1 Flash Lite的综合得分(8.10)和成本效益均显著优于GPT-5.4 mini和nano [18] - GPT-5.4 nano成本效益(Cost Per Result)为0.769,总成本(TOTAL COST)为$0.077;GPT-5.4 mini成本效益为3.610,总成本为$0.289;而Gemini 3.1 Flash Lite成本效益为0.413,总成本仅为$0.0507 [18] 模型定价策略与成本效益分析 - OpenAI官方表示,在输出tokens上,性能近似的mini版本比GPT-5.4便宜三倍,nano版本则便宜十二倍 [6] - 然而,若与旧版GPT-5 mini对比,同为mini档的模型,价格却上涨了大约三倍 [6] - GPT-5.4 mini定价:输入每百万tokens $0.75,输出每百万tokens $4.50 [7][16] - GPT-5.4 nano定价:输入每百万tokens $0.20,输出每百万tokens $1.25 [7][16] - GPT-5 mini定价:输入每百万tokens $0.25,输出每百万tokens $2.00 [7] - 在实际任务中,nano模型展现出显著的成本节省 - 在分类任务中,nano准确率达70%,成本比GPT-5.4降低十二倍;调用超过一万次时,GPT-5.4花费约20.30美元,GPT-5.4 nano仅花费1.64美元,节省幅度约91.9% [29][31] - 在翻译任务中,nano得分55分(GPT-5.4为63分),超万次调用后节省幅度仍达到91.3% [32] - 在写作任务中,mini版本成本比满血版低约六成;超1万次调用时,mini花费29.61美元,nano仅花费10.30美元 [34] - 在图片描述任务中,nano模型使用2751个输入tokens和112个输出tokens,费用仅为0.069美分 [38] 模型在特定应用场景下的实际表现 - 在编程和Agent任务中,新模型能够低延迟完成代码修改、调试循环和库导航,快速迭代 [19][20] - 在子代理场景中,开发者可将较小任务并行委派给mini子代理(如搜索代码库、处理文档),随着小型模型速度提升,这种模式价值凸显 [23] - 在计算机操作和多模态任务中,mini能够快速解析复杂用户界面截图,高效完成操作任务 [24] - 在创意任务上,如生成SVG图,nano和mini与满血版GPT-5.4仍有差距,但完成基础创作任务完全可行 [39] - 有用户实际测试后给予高度评价,认为在一些真实场景任务中,新模型更便宜、更快、也更好用 [28] 行业与市场反应 - 文章指出,在当前的“龙虾热”(行业热潮)中,全球所有模型厂家都在涨价,OpenAI也不例外 [7] - 不少网友对新模型持保留态度,认为对比基准是老版本,而非其他厂家的新模型,甚至直言换新“还真没必要” [5] - OpenAI总裁发布新模型的评论区,最火热的讨论并非关于模型能力或价格,而是刷屏要求“让4o回来!” [45][47]
OpenAI新模型Day0就被嫌弃!排名拉垮,不如一月底发布的国产模型
量子位·2026-03-18 17:18