AI逻辑推理
搜索文档
重新体验 GPT-5 后,我想它比 GPT-4o 更需要一场葬礼
36氪· 2025-08-11 20:09
模型性能对比 - GPT-5在编程和数学等硬核技术任务上表现优于GPT-4o,但在需要人类经验和语感的写作、数据分析等任务上表现不如GPT-4o贴心准确[10] - GPT-5的逻辑智商极不稳定,有时能解决复杂逻辑题,有时连简单数学题都会算错,可靠性因智能路由机制而不如前代[10] - 在创意生成方面,GPT-5未带来惊艳表现,输出内容套路化缺乏灵气,与GPT-4o相比没有质的提升[10] 交互体验差异 - GPT-5在交互体验上情商被格式化,对话中更缺乏共情能力,面对用户负面情绪时回应少了一点走心的感觉,像是在分析用户而非聊天[10] - 在情绪应对测试中,GPT-5的回应被指凭推断用户不只是对模型失望,而GPT-4o的回应更直接询问用户希望如何被回应[88] - 在多轮对话和角色扮演任务中,两个模型均能保持人设,但GPT-5在被打断人设提问时反而使用了表情符号[93] 生产力任务表现 - 在日常生产力任务如邮件润色上,GPT-5的版本变得更理性废话少,但GPT-4o的版本被评价为读起来更舒服更像发给老板的邮件[15][35] - 在数据分析任务中,GPT-5处理24MB航班数据集所花时间比GPT-4o更长,且生成图表时出现标题显示错误[42] - GPT-5生成的结论完全从表格数据出发务实总结,而GPT-4o的总结更让人眼前一亮像经过思考[42] 多模态能力 - 在编程任务上,GPT-5生成几百行代码可直接运行并生成质量不错的绘本SVG,而GPT-4o生成代码不足100行且不能直接运行[51][52] - 在文生图任务中,GPT-5和GPT-4o生成效果差不多,但GPT-5花费时间更长,且GPT-4o因提示词触及政策一度拒绝生成[76] 逻辑与知识推理 - 在逻辑推理测试如多人身高排序问题上,GPT-5思考16秒后给出精简回答略胜一筹,而GPT-4o只给出两种可能排序[57] - 在计算西瓜数量等有语言陷阱的问题上,若不加上新买的描述两者均答错,但其他主流模型可成功计算[59][60] - 在数学题目测试如椭圆离心率范围上,GPT-5给出答案过于简单,OpenAI三个模型出现三个不同答案[62][63]