重新体验GPT-5后，我想它比GPT-4o更需要一场葬礼

GPT-5与GPT-4o性能对比 - GPT-5在编程等硬核技术任务上表现优于GPT-4o 但在写邮件、数据分析和阅读理解等需要人类经验的任务上表现不如GPT-4o贴心准确 [16][56] - GPT-5逻辑能力不稳定有时能解决复杂逻辑题有时连简单数学题都会算错可靠性不如前代 [17][66] - GPT-5创意能力原地踏步甚至倒退输出内容套路化缺乏灵气与GPT-4o相比没有质的提升 [18][80] - GPT-5交互体验退步缺乏共情能力回应更理性但少走心感觉 [19][98] 生产力任务表现 - GPT-5生成的邮件更理性简洁但GPT-4o的版本读起来更舒服专业 [24][32] - 在数据分析任务中 GPT-5处理时间更长且表格显示有误而GPT-4o能生成更直观的可视化结果 [43][44] - GPT-5编程能力有提升生成绘本的代码量达几百行可直接运行且效果较好 [54][56] 逻辑与知识推理 - GPT-5在部分逻辑题如身高排序上表现优于GPT-4o 能给出更全面的排列组合 [62][63] - 在简单数学题如数西瓜和数手指上 GPT-5表现不稳定有时会给出错误答案 [64][66] - 复杂数学题如椭圆离心率计算 GPT-5思考时间长且答案简单准确性存疑 [68][70] 创意与内容生成 - 在标题创作和诗歌写作任务中 GPT-5与GPT-4o表现接近均未达到惊艳水平 [80][82] - 生成图片提示词时 GPT-5能提供更详细的描述但直接生图效果与GPT-4o差异不大 [85][88] 交互与用户体验 - 面对用户负面情绪 GPT-5回应更理性但缺乏共情 GPT-4o能更灵活调整回应方式 [93][98] - 在角色扮演任务中 GPT-5与GPT-4o均能保持角色一致性但GPT-5推断用户心理的准确性存疑 [100][101] - 多轮对话测试显示两者上下文连续性表现接近均能准确回顾之前讨论内容 [103][104] 行业影响与用户反馈 - 用户普遍认为GPT-5升级名不副实实际体验未达预期部分场景表现甚至不如GPT-4o [20][105] - 行业更关注AI模型实际解决问题的能力而非单纯追求榜单得分和发布会炫技 [109][110]