重新体验GPT-5后,我想它比GPT-4o更需要一场葬礼
虎嗅·2025-08-11 20:57

GPT-5与GPT-4o性能对比 - GPT-5在编程等硬核技术任务上表现优于GPT-4o 但在写邮件、数据分析和阅读理解等需要人类经验的任务上表现不如GPT-4o贴心准确 [16][56] - GPT-5逻辑能力不稳定 有时能解决复杂逻辑题 有时连简单数学题都会算错 可靠性不如前代 [17][66] - GPT-5创意能力原地踏步甚至倒退 输出内容套路化缺乏灵气 与GPT-4o相比没有质的提升 [18][80] - GPT-5交互体验退步 缺乏共情能力 回应更理性但少走心感觉 [19][98] 生产力任务表现 - GPT-5生成的邮件更理性简洁 但GPT-4o的版本读起来更舒服专业 [24][32] - 在数据分析任务中 GPT-5处理时间更长且表格显示有误 而GPT-4o能生成更直观的可视化结果 [43][44] - GPT-5编程能力有提升 生成绘本的代码量达几百行 可直接运行且效果较好 [54][56] 逻辑与知识推理 - GPT-5在部分逻辑题如身高排序上表现优于GPT-4o 能给出更全面的排列组合 [62][63] - 在简单数学题如数西瓜和数手指上 GPT-5表现不稳定 有时会给出错误答案 [64][66] - 复杂数学题如椭圆离心率计算 GPT-5思考时间长且答案简单 准确性存疑 [68][70] 创意与内容生成 - 在标题创作和诗歌写作任务中 GPT-5与GPT-4o表现接近 均未达到惊艳水平 [80][82] - 生成图片提示词时 GPT-5能提供更详细的描述 但直接生图效果与GPT-4o差异不大 [85][88] 交互与用户体验 - 面对用户负面情绪 GPT-5回应更理性但缺乏共情 GPT-4o能更灵活调整回应方式 [93][98] - 在角色扮演任务中 GPT-5与GPT-4o均能保持角色一致性 但GPT-5推断用户心理的准确性存疑 [100][101] - 多轮对话测试显示两者上下文连续性表现接近 均能准确回顾之前讨论内容 [103][104] 行业影响与用户反馈 - 用户普遍认为GPT-5升级名不副实 实际体验未达预期 部分场景表现甚至不如GPT-4o [20][105] - 行业更关注AI模型实际解决问题的能力 而非单纯追求榜单得分和发布会炫技 [109][110]