Workflow
GPT-5不是技术新范式,是OpenAI加速产品化的战略拐点
虎嗅·2025-08-13 07:54

公司战略定位 - OpenAI正从研究实验室转型为产品平台公司 ChatGPT已成为拥有10亿MAU的大众产品 增速加快且用户粘性增加 显示出产品已实现破圈 [1] - 评价GPT-5应基于OpenAI作为产品公司的视角 而非单纯AGI技术实验室视角 [2] - 采用类似Apple的单一产品线策略 通过路由系统整合多模型能力 有利于成本优化和用户心智占领 对比Google Gemini多产品线策略更具商业优势 [9] GPT-5核心能力特征 - 是精通现有场景的Everything Model 在多数场景下任务完成度提升 解决现实use case卡点 但非次世代Agentic Model [3] - 主要能力提升包括:vibe coding能力大幅提升 reasoning效率与效果较o3明显提升 API支持自定义工具 长上下文/工具使用更稳定 [5] - 明显短板包括:Agentic能力无显著进步 指令跟随不如Claude 情感对话能力较GPT-4o减弱 [5] - 在SWE-Bench基准测试中达到74.9% 略高于Claude Opus 4.1的74.5% 但实际表现更接近Sonnet 3.7水平 [18] 路由系统架构 - GPT-5非单一模型 而是由Router驱动的系统 能按问题复杂度动态选择不同模型的智力水平 [6] - Router为小模型 利用历史用户行为数据训练 随着用户数据积累 模型选择能力将快速优化 [7] - 当前Router未内化到同一模型中 进度低于预期 端到端模型比模块化系统更智能 [8] - 路由系统可能导致对话体验不一致 陪伴型用户面临风格不统一 效率型用户可能因错误路由出现幻觉 [9] 定价与市场竞争 - 旗舰模型GPT-5定价为输入1.25美元/百万token 输出10美元/百万token 与Gemini 2.5 Pro持平 是Sonnet 4价格的一半 Opus 4.1价格的十分之一 [13][14] - 平价模型GPT-5 Mini定价为输入0.25美元/百万token 输出2美元/百万token 较Gemini 2.5 Flash更便宜 [15] - 直接对标Gemini 2.5定价 旨在成为Claude 4 killer 应对Anthropic API收入超过OpenAI的竞争态势 [10] 编程能力定位 - 更适合vibe coding和Pair Programming 在IDE中迭代开发和Debug体验良好 [16][17] - 在Agentic Coding方面不如Claude Code 写代码更谨慎 对长代码/长时间执行任务不够放开 [18] - 通过测试案例显示:GPT-5能完成"地球生态气候系统模拟"任务 但结果较为基础 需用户进一步修改 而Claude Opus 4.1能一次性完成且 gameplay更优 [19][22] - 更适合服务泛大众开发者(citizen developer)的vibe coding需求 而非专业开发者的尖端需求 [23] 推理能力进步 - 普通用户reasoning model使用率从不到1%提升至7% Plus用户从7%提升至24% 传统企业用户仍主要使用4o模型 渗透空间巨大 [25] - 幻觉显著优化:在CharXiv多模态基准测试中 当移除所有图片后 o3在86.7%情况下仍错误回答 而GPT-5仅占9% [28] - 推理效率提升:在优于o3的同时 token成本下降50%-80% API支持low/medium/high三档推理强度 [29] 工具使用创新 - 支持free-form function calling 不再依赖严格JSON schema 可先给出自然语言级工具意图 由小模型解析执行 [33] - 实现parallel tool calling 能智能判断并行或串行执行 有望解锁更长任务链 [35] - 工具使用设计思路接近Claude Code free-form function calling类似于subagent设计 [36] - 工具类型涵盖Internal Retrieval Web Search Code Interpreter和Actions四类 [32]