Workflow
GPT-5 能让普通人变成博士,但魔法依旧没有
36氪·2025-08-08 11:50

产品发布与核心能力 - OpenAI发布GPT-5 模型系统 具备256k token上下文窗口 支持文本和图像输入 函数调用和结构化输出[12] - 模型自动判断查询意图 简单问题路由到极速响应版本 复杂问题路由到深度思考版本[13][14] - 在数学领域AIME 2025测试得分94.6% 真实世界编码SWE-bench Verified得分74.9% 多模态理解MMMU得分84.2% 健康领域HealthBench Hard得分46.2%[18] - 在GPQA测试中无需工具得分88.4% 凭借扩展推理能力创下新高[18] - 幻觉显著降低 启用搜索时事实性错误比GPT-4o减少45% 思考模式下比OpenAI o3降低80%[25] - 欺骗行为大幅改善 对不存在图像给出自信答案的概率从o3的86.7%降至9%[27] - 思考效率提升 在视觉推理 代理编码和科学问题解决中输出token数量减少50%至80%[28] 实际应用与用户体验 - 能够生成交互式应用 例如用一句话创建流体力学伯努利公式的可互动页面[3] - 支持定制化学习工具生成 如法语学习应用 并可通过自然语言修改应用功能[5] - 为创业公司CFO生成详细财务状况演示板 仅需100字描述 3分钟内完成[7] - 通过3段提示词生成带射击游戏功能的3D城堡模型 包含音效和交互元素[7] - 在医疗健康领域提供专业建议 帮助癌症患者理解治疗方案并做出决策[9][11] - 成为最强大编码工具 可一次性创建美观且响应迅速的网站 应用程序和游戏[15] - 作为最强大写作工具 处理结构模糊文本如抑扬格五音步或自由诗 辅助起草报告 邮件等[17][18] 性能评估与行业地位 - 在LMArena排行榜以1481分位列第一 超越Gemini 2.5 Pro的1460分和o3的1450分[21][22] - 在Intelligence Analysis评测中获得第一名[22] - 被类比为博士级专家水平 而GPT-4o仅为大学生水平[1][32] - 但被部分行业人士评价为"非巨大飞跃" 未达到AGI水平 Grok 4在ARC-AGI-2测试中表现更优[36][37] 商业化与定价策略 - API定价极具竞争力 输入价格1.25美元/百万token 输出价格10美元/百万token[30][31] - 价格低于Claude Opus 4的15/75美元和Gemini 2.5 Pro的2.5/15美元 与Gemini 2.5 Pro低价版本持平[31] 市场反响与争议 - 发布会持续时间超1小时 较以往半小时显著延长 体现公司重视程度[32] - 发布会图表出现严重错误 SWE-bench数据标注混乱 引发公众质疑[33][35] - 马斯克宣称Grok 4 Heavy比GPT-5更智能[35] - 学者指出需关注实际性能 利润模式仍不清晰 技术护城河尚未明确[37]