刚刚，奥特曼发布GPT-5，人人免费用“博士级”智能，基准图错误遭全网吐槽

模型发布与核心功能 - GPT-5作为集成模型发布，无需用户手动切换子模型，系统自动分配最优处理模块（如高效应答、深度推理的"Thinking模式"）[3][30] - 采用实时router系统优化模型分配，结合用户反馈及使用量动态调整，未来计划融合为单一终极模型[30] - 三大关键突破：显著降低幻觉生成、提升指令遵循精度、减少迎合性回答，核心场景（文本创作、编程开发、健康咨询）性能全面提升[30] 技术性能与基准测试 - 数学领域无工具辅助下AIME 2025测试达94.6%，编程领域SWE-bench Verified 74.9%/Aider Polyglot 88%，多模态MMMU 84.2%，健康领域HealthBench Hard 46.2%[4][31] - GPT-5 Pro在GPQA基准测试创88.4%新纪录（无工具辅助），内部评估显示其在40多个职业领域综合表现超越人类专家及前代模型[4][61] - 多模态能力覆盖视觉、视频、空间推理，可精准解析非文本输入（图表、演示文稿等）[51] 产品商业化与定价 - 提供免费版、Plus和Pro三档计划，免费版具备"博士级智能"基础推理功能，Pro版开放最高性能模型[4] - API定价：标准版每百万输入Token 1.25美元/输出Token 10美元，mini/nano版更便宜[4] - 微软生态全线接入（Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry），模型基于Azure AI超算训练[68][69][70] 应用场景演示 - 教育领域可快速生成数百行代码及互动内容（如伯努利效应解释），写作质量优于GPT-4o[7][8] - 编程能力支持全流程开发（如法语学习网页），语音模式升级后支持自然语调调节及长对话，适配语言学习[8][10] - 健康功能优化，现场展示癌症病情解释案例，被定位为"迄今最佳健康模型"[12] 争议与行业对比 - 现场出现跑分图错误及幻觉案例争议，部分观点认为错误源于训练数据本身偏差[13][21][23][24] - 行业评价认为闭源与开源模型差距缩小，GPT-5编程性能仅领先消费级开源模型10%，AGI发展或放缓[26] - 对比前代模型，GPT-5在视觉推理等场景输出token量减少50-80%，效率显著提升[64][65][66] 模型架构与版本迭代 - GPT-5系列包含gpt-5-main（基础版）、gpt-5-thinking（推理版）及Pro版本，全面替代GPT-4o/o3系列[72][74] - GPT-5 Pro取代o3-pro，专攻高复杂度任务，支持并行测试计算，在科学问题（如GPQA）表现领先[72]