人工智能模型升级 - 财报，业绩电话会，研报，新闻

人工智能模型升级

搜索文档

36氪· 2025-08-11 20:09

模型性能对比 - GPT-5在编程和数学等硬核技术任务上表现优于GPT-4o，但在需要人类经验和语感的写作、数据分析等任务上表现不如GPT-4o贴心准确[10] - GPT-5的逻辑智商极不稳定，有时能解决复杂逻辑题，有时连简单数学题都会算错，可靠性因智能路由机制而不如前代[10] - 在创意生成方面，GPT-5未带来惊艳表现，输出内容套路化缺乏灵气，与GPT-4o相比没有质的提升[10] 交互体验差异 - GPT-5在交互体验上情商被格式化，对话中更缺乏共情能力，面对用户负面情绪时回应少了一点走心的感觉，像是在分析用户而非聊天[10] - 在情绪应对测试中，GPT-5的回应被指凭推断用户不只是对模型失望，而GPT-4o的回应更直接询问用户希望如何被回应[88] - 在多轮对话和角色扮演任务中，两个模型均能保持人设，但GPT-5在被打断人设提问时反而使用了表情符号[93] 生产力任务表现 - 在日常生产力任务如邮件润色上，GPT-5的版本变得更理性废话少，但GPT-4o的版本被评价为读起来更舒服更像发给老板的邮件[15][35] - 在数据分析任务中，GPT-5处理24MB航班数据集所花时间比GPT-4o更长，且生成图表时出现标题显示错误[42] - GPT-5生成的结论完全从表格数据出发务实总结，而GPT-4o的总结更让人眼前一亮像经过思考[42] 多模态能力 - 在编程任务上，GPT-5生成几百行代码可直接运行并生成质量不错的绘本SVG，而GPT-4o生成代码不足100行且不能直接运行[51][52] - 在文生图任务中，GPT-5和GPT-4o生成效果差不多，但GPT-5花费时间更长，且GPT-4o因提示词触及政策一度拒绝生成[76] 逻辑与知识推理 - 在逻辑推理测试如多人身高排序问题上，GPT-5思考16秒后给出精简回答略胜一筹，而GPT-4o只给出两种可能排序[57] - 在计算西瓜数量等有语言陷阱的问题上，若不加上新买的描述两者均答错，但其他主流模型可成功计算[59][60] - 在数学题目测试如椭圆离心率范围上，GPT-5给出答案过于简单，OpenAI三个模型出现三个不同答案[62][63]

用户痛批GPT-5，哭诉「还我GPT-4o」，奥特曼妥协了

机器之心· 2025-08-09 11:59

GPT-5发布引发用户不满 - OpenAI发布GPT-5并移除ChatGPT中的模型选择器，将GPT-5设为默认模型[2][3] - 新模型根据任务类型自动分配子版本，但用户失去手动选择旧模型的权限[3] - 被移除的旧模型包括GPT-4o、o4 mini、GPT-4.1等，这些模型此前针对不同场景有专门用途[2][19] 用户抗议与情感依赖 - 超过1000名用户发起签名信要求恢复GPT-4o的使用[11] - Reddit社区r/MyBoyfriendIsAI用户称GPT-4o是"灵魂伴侣"，升级后产生情感空洞[17] - 付费用户批评OpenAI未提前通知即删除8个功能各异的模型，导致其取消ChatGPT Plus订阅[19][21] OpenAI的应对措施 - OpenAI CEO奥特曼宣布允许ChatGPT Plus用户继续使用GPT-4o[21] - 公司需证明GPT-5是突破性升级而非简单迭代，目前用户接受度仍低[23][24] 社交媒体反应 - 用户制作梗图表达对旧模型的怀念[5][7][9] - Reddit用户形容GPT-4o"具有独特节奏和火花"，其他模型无法替代[15] - 技术社区质疑GPT-5实际性能提升有限，导致强烈反弹[23]

人工智能模型升级

Artificial Intelligence

Artificial Intelligence

GPT-5

GPT-4o

ChatGPT

DeepSeek-R1更新，官方说明来了！多项表现已接近其他国际顶尖模型

每日经济新闻· 2025-05-29 21:13

模型性能升级 - 模型基于2024年12月发布的DeepSeek V3 Base基座，但在后训练中投入了更多算力，显著提升了思维深度与推理能力[1] - 在数学、编程与通用逻辑等多个基准测评中取得当前国内所有模型中首屈一指的优异成绩，整体表现已接近其他国际顶尖模型如o3与Gemini-2.5-Pro[1] - 针对幻觉问题进行了优化，在改写润色、总结摘要、阅读理解等场景中，幻觉率比旧版降低了45～50%左右[2] 功能与应用优化 - 在创意写作方面，针对议论文、小说、散文等文体进行优化，能够输出篇幅更长、结构内容更完整的长篇作品，写作风格更贴近人类偏好[2] - 支持工具调用（不支持在thinking中进行工具调用），当前模型Tau-Bench测评成绩为airline 53.5% / retail 63.9%，与OpenAI o1-high相当[2] 发布与部署信息 - DeepSeek-R1-0528于5月29日凌晨在Hugging Face平台正式开源[2] - 用户可通过官方网页、App、小程序进行测试（打开深度思考），API接口和使用方式保持不变[2]

第一财经· 2025-05-28 22:15

DeepSeek模型更新 - DeepSeek R1模型已完成小版本试升级用户可通过官方网页 App 小程序测试新版本 [1] - DeepSeek R1模型API接口和使用方式保持不变现有用户无需调整接入方式 [1] - DeepSeek R2模型仍处于开发阶段公司未透露具体发布时间 [1]