模型性能与市场反馈 - GPT-5发布后未与主流模型拉开显著差距,部分性能指标落后于Grok 4和Claude Opus 4 1,上下文长度不及Gemini 2 5 Pro [2] - 在Humanity's Last Exam测试中,GPT-5 Pro准确率为42 0%,低于Grok 4 Heavy的44 4%,在ARC-AGI-2测试中GPT-5 High得分9 9%,低于Grok-4 Thinking的16 0% [10] - LMArena最新榜单显示GPT-5以1481分位列第一,领先Gemini 2 5 Pro(1460分)和Claude Opus 4(1420分) [20][22] 用户反应与产品策略 - 普通用户对GPT-5升级感知不明显,OpenAI因反对声浪重新为Plus用户上架GPT-4o [3] - ChatGPT周活跃用户达7亿,付费订阅用户约2000万,GPT-5免费开放但Plus用户享有更高额度 [8][34] - 公司采用统一模型策略引发不满,故障导致自动切换器停摆,Plus用户上下文长度限制32k遭吐槽 [40][41][52] 技术升级与成本优化 - GPT-5输入成本降至1 25美元/百万tokens(较GPT-4o降50%),nano版本低至0 05美元/百万tokens,显著低于Claude Opus 4 1(15美元)和Grok 4(3美元) [18][19] - 新增多目标奖励信号和思维链监控,安全补全机制可拒绝危险请求并提供替代信息,减少幻觉和谄媚性 [33] - 编程能力被重点强化,发布会50%时间展示编程场景,微软等22家公司迅速接入GPT-5 [23][24][25] 行业竞争格局 - xAI创始人马斯克公开对比测试结果,称Grok 4 Heavy"更聪明",预告Grok 5将于年底发布 [12] - Anthropic的Claude Opus 4 1在SWE-bench测试中未启用深度思考即接近GPT-5启用深度思考的得分(74 9% vs 75 3%) [15][16] - 公司承认缩放定律局限,模型规模扩张带来的性能跃迁减弱,迭代周期延长至29个月 [4][5] 产品定位与功能调整 - 强调现实世界实用性而非纯性能提升,新增对话界面自定义颜色功能(Pro用户专属黑色) [9][26] - 减少表情符号使用和过度迎合倾向,提供4种自定义风格调整,被用户批评个性平淡 [33][64] - 原计划推出100万上下文版本因算力成本放弃,Plus用户临时额度提升至160条/天 [34][54]
GPT-5为什么没有带来更多惊喜?
虎嗅·2025-08-10 14:15