AI逻辑推理 - 财报，业绩电话会，研报，新闻

AI逻辑推理

搜索文档

36氪· 2025-08-11 20:09

模型性能对比 - GPT-5在编程和数学等硬核技术任务上表现优于GPT-4o，但在需要人类经验和语感的写作、数据分析等任务上表现不如GPT-4o贴心准确[10] - GPT-5的逻辑智商极不稳定，有时能解决复杂逻辑题，有时连简单数学题都会算错，可靠性因智能路由机制而不如前代[10] - 在创意生成方面，GPT-5未带来惊艳表现，输出内容套路化缺乏灵气，与GPT-4o相比没有质的提升[10] 交互体验差异 - GPT-5在交互体验上情商被格式化，对话中更缺乏共情能力，面对用户负面情绪时回应少了一点走心的感觉，像是在分析用户而非聊天[10] - 在情绪应对测试中，GPT-5的回应被指凭推断用户不只是对模型失望，而GPT-4o的回应更直接询问用户希望如何被回应[88] - 在多轮对话和角色扮演任务中，两个模型均能保持人设，但GPT-5在被打断人设提问时反而使用了表情符号[93] 生产力任务表现 - 在日常生产力任务如邮件润色上，GPT-5的版本变得更理性废话少，但GPT-4o的版本被评价为读起来更舒服更像发给老板的邮件[15][35] - 在数据分析任务中，GPT-5处理24MB航班数据集所花时间比GPT-4o更长，且生成图表时出现标题显示错误[42] - GPT-5生成的结论完全从表格数据出发务实总结，而GPT-4o的总结更让人眼前一亮像经过思考[42] 多模态能力 - 在编程任务上，GPT-5生成几百行代码可直接运行并生成质量不错的绘本SVG，而GPT-4o生成代码不足100行且不能直接运行[51][52] - 在文生图任务中，GPT-5和GPT-4o生成效果差不多，但GPT-5花费时间更长，且GPT-4o因提示词触及政策一度拒绝生成[76] 逻辑与知识推理 - 在逻辑推理测试如多人身高排序问题上，GPT-5思考16秒后给出精简回答略胜一筹，而GPT-4o只给出两种可能排序[57] - 在计算西瓜数量等有语言陷阱的问题上，若不加上新买的描述两者均答错，但其他主流模型可成功计算[59][60] - 在数学题目测试如椭圆离心率范围上，GPT-5给出答案过于简单，OpenAI三个模型出现三个不同答案[62][63]