GPT-5为什么没有带来更多惊喜？

模型性能与市场反馈 - GPT-5发布后未与主流模型拉开显著差距，部分性能指标落后于Grok 4和Claude Opus 4 1，上下文长度不及Gemini 2 5 Pro [2] - 在Humanity's Last Exam测试中，GPT-5 Pro准确率为42 0%，低于Grok 4 Heavy的44 4%，在ARC-AGI-2测试中GPT-5 High得分9 9%，低于Grok-4 Thinking的16 0% [10] - LMArena最新榜单显示GPT-5以1481分位列第一，领先Gemini 2 5 Pro（1460分）和Claude Opus 4（1420分） [20][22] 用户反应与产品策略 - 普通用户对GPT-5升级感知不明显，OpenAI因反对声浪重新为Plus用户上架GPT-4o [3] - ChatGPT周活跃用户达7亿，付费订阅用户约2000万，GPT-5免费开放但Plus用户享有更高额度 [8][34] - 公司采用统一模型策略引发不满，故障导致自动切换器停摆，Plus用户上下文长度限制32k遭吐槽 [40][41][52] 技术升级与成本优化 - GPT-5输入成本降至1 25美元/百万tokens（较GPT-4o降50%），nano版本低至0 05美元/百万tokens，显著低于Claude Opus 4 1（15美元）和Grok 4（3美元） [18][19] - 新增多目标奖励信号和思维链监控，安全补全机制可拒绝危险请求并提供替代信息，减少幻觉和谄媚性 [33] - 编程能力被重点强化，发布会50%时间展示编程场景，微软等22家公司迅速接入GPT-5 [23][24][25] 行业竞争格局 - xAI创始人马斯克公开对比测试结果，称Grok 4 Heavy"更聪明"，预告Grok 5将于年底发布 [12] - Anthropic的Claude Opus 4 1在SWE-bench测试中未启用深度思考即接近GPT-5启用深度思考的得分（74 9% vs 75 3%） [15][16] - 公司承认缩放定律局限，模型规模扩张带来的性能跃迁减弱，迭代周期延长至29个月 [4][5] 产品定位与功能调整 - 强调现实世界实用性而非纯性能提升，新增对话界面自定义颜色功能（Pro用户专属黑色） [9][26] - 减少表情符号使用和过度迎合倾向，提供4种自定义风格调整，被用户批评个性平淡 [33][64] - 原计划推出100万上下文版本因算力成本放弃，Plus用户临时额度提升至160条/天 [34][54]