Workflow
刚刚,奥特曼发布GPT-5,人人免费用“博士级”智能,基准图错误遭全网吐槽
36氪·2025-08-08 11:05

模型发布与核心功能 - GPT-5作为集成模型发布,无需用户手动切换子模型,系统自动分配最优处理模块(如高效应答、深度推理的"Thinking模式")[3][30] - 采用实时router系统优化模型分配,结合用户反馈及使用量动态调整,未来计划融合为单一终极模型[30] - 三大关键突破:显著降低幻觉生成、提升指令遵循精度、减少迎合性回答,核心场景(文本创作、编程开发、健康咨询)性能全面提升[30] 技术性能与基准测试 - 数学领域无工具辅助下AIME 2025测试达94.6%,编程领域SWE-bench Verified 74.9%/Aider Polyglot 88%,多模态MMMU 84.2%,健康领域HealthBench Hard 46.2%[4][31] - GPT-5 Pro在GPQA基准测试创88.4%新纪录(无工具辅助),内部评估显示其在40多个职业领域综合表现超越人类专家及前代模型[4][61] - 多模态能力覆盖视觉、视频、空间推理,可精准解析非文本输入(图表、演示文稿等)[51] 产品商业化与定价 - 提供免费版、Plus和Pro三档计划,免费版具备"博士级智能"基础推理功能,Pro版开放最高性能模型[4] - API定价:标准版每百万输入Token 1.25美元/输出Token 10美元,mini/nano版更便宜[4] - 微软生态全线接入(Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry),模型基于Azure AI超算训练[68][69][70] 应用场景演示 - 教育领域可快速生成数百行代码及互动内容(如伯努利效应解释),写作质量优于GPT-4o[7][8] - 编程能力支持全流程开发(如法语学习网页),语音模式升级后支持自然语调调节及长对话,适配语言学习[8][10] - 健康功能优化,现场展示癌症病情解释案例,被定位为"迄今最佳健康模型"[12] 争议与行业对比 - 现场出现跑分图错误及幻觉案例争议,部分观点认为错误源于训练数据本身偏差[13][21][23][24] - 行业评价认为闭源与开源模型差距缩小,GPT-5编程性能仅领先消费级开源模型10%,AGI发展或放缓[26] - 对比前代模型,GPT-5在视觉推理等场景输出token量减少50-80%,效率显著提升[64][65][66] 模型架构与版本迭代 - GPT-5系列包含gpt-5-main(基础版)、gpt-5-thinking(推理版)及Pro版本,全面替代GPT-4o/o3系列[72][74] - GPT-5 Pro取代o3-pro,专攻高复杂度任务,支持并行测试计算,在科学问题(如GPQA)表现领先[72]