GPT-5 能让普通人变成博士，但魔法依旧没有

产品发布与核心能力 - OpenAI发布GPT-5 模型系统具备256k token上下文窗口支持文本和图像输入函数调用和结构化输出[12] - 模型自动判断查询意图简单问题路由到极速响应版本复杂问题路由到深度思考版本[13][14] - 在数学领域AIME 2025测试得分94.6% 真实世界编码SWE-bench Verified得分74.9% 多模态理解MMMU得分84.2% 健康领域HealthBench Hard得分46.2%[18] - 在GPQA测试中无需工具得分88.4% 凭借扩展推理能力创下新高[18] - 幻觉显著降低启用搜索时事实性错误比GPT-4o减少45% 思考模式下比OpenAI o3降低80%[25] - 欺骗行为大幅改善对不存在图像给出自信答案的概率从o3的86.7%降至9%[27] - 思考效率提升在视觉推理代理编码和科学问题解决中输出token数量减少50%至80%[28] 实际应用与用户体验 - 能够生成交互式应用例如用一句话创建流体力学伯努利公式的可互动页面[3] - 支持定制化学习工具生成如法语学习应用并可通过自然语言修改应用功能[5] - 为创业公司CFO生成详细财务状况演示板仅需100字描述 3分钟内完成[7] - 通过3段提示词生成带射击游戏功能的3D城堡模型包含音效和交互元素[7] - 在医疗健康领域提供专业建议帮助癌症患者理解治疗方案并做出决策[9][11] - 成为最强大编码工具可一次性创建美观且响应迅速的网站应用程序和游戏[15] - 作为最强大写作工具处理结构模糊文本如抑扬格五音步或自由诗辅助起草报告邮件等[17][18] 性能评估与行业地位 - 在LMArena排行榜以1481分位列第一超越Gemini 2.5 Pro的1460分和o3的1450分[21][22] - 在Intelligence Analysis评测中获得第一名[22] - 被类比为博士级专家水平而GPT-4o仅为大学生水平[1][32] - 但被部分行业人士评价为"非巨大飞跃" 未达到AGI水平 Grok 4在ARC-AGI-2测试中表现更优[36][37] 商业化与定价策略 - API定价极具竞争力输入价格1.25美元/百万token 输出价格10美元/百万token[30][31] - 价格低于Claude Opus 4的15/75美元和Gemini 2.5 Pro的2.5/15美元与Gemini 2.5 Pro低价版本持平[31] 市场反响与争议 - 发布会持续时间超1小时较以往半小时显著延长体现公司重视程度[32] - 发布会图表出现严重错误 SWE-bench数据标注混乱引发公众质疑[33][35] - 马斯克宣称Grok 4 Heavy比GPT-5更智能[35] - 学者指出需关注实际性能利润模式仍不清晰技术护城河尚未明确[37]