GPT-5不是技术新范式，是OpenAI加速产品化的战略拐点

公司战略定位 - OpenAI正从研究实验室转型为产品平台公司 ChatGPT已成为拥有10亿MAU的大众产品增速加快且用户粘性增加显示出产品已实现破圈 [1] - 评价GPT-5应基于OpenAI作为产品公司的视角而非单纯AGI技术实验室视角 [2] - 采用类似Apple的单一产品线策略通过路由系统整合多模型能力有利于成本优化和用户心智占领对比Google Gemini多产品线策略更具商业优势 [9] GPT-5核心能力特征 - 是精通现有场景的Everything Model 在多数场景下任务完成度提升解决现实use case卡点但非次世代Agentic Model [3] - 主要能力提升包括：vibe coding能力大幅提升 reasoning效率与效果较o3明显提升 API支持自定义工具长上下文/工具使用更稳定 [5] - 明显短板包括：Agentic能力无显著进步指令跟随不如Claude 情感对话能力较GPT-4o减弱 [5] - 在SWE-Bench基准测试中达到74.9% 略高于Claude Opus 4.1的74.5% 但实际表现更接近Sonnet 3.7水平 [18] 路由系统架构 - GPT-5非单一模型而是由Router驱动的系统能按问题复杂度动态选择不同模型的智力水平 [6] - Router为小模型利用历史用户行为数据训练随着用户数据积累模型选择能力将快速优化 [7] - 当前Router未内化到同一模型中进度低于预期端到端模型比模块化系统更智能 [8] - 路由系统可能导致对话体验不一致陪伴型用户面临风格不统一效率型用户可能因错误路由出现幻觉 [9] 定价与市场竞争 - 旗舰模型GPT-5定价为输入1.25美元/百万token 输出10美元/百万token 与Gemini 2.5 Pro持平是Sonnet 4价格的一半 Opus 4.1价格的十分之一 [13][14] - 平价模型GPT-5 Mini定价为输入0.25美元/百万token 输出2美元/百万token 较Gemini 2.5 Flash更便宜 [15] - 直接对标Gemini 2.5定价旨在成为Claude 4 killer 应对Anthropic API收入超过OpenAI的竞争态势 [10] 编程能力定位 - 更适合vibe coding和Pair Programming 在IDE中迭代开发和Debug体验良好 [16][17] - 在Agentic Coding方面不如Claude Code 写代码更谨慎对长代码/长时间执行任务不够放开 [18] - 通过测试案例显示：GPT-5能完成"地球生态气候系统模拟"任务但结果较为基础需用户进一步修改而Claude Opus 4.1能一次性完成且 gameplay更优 [19][22] - 更适合服务泛大众开发者(citizen developer)的vibe coding需求而非专业开发者的尖端需求 [23] 推理能力进步 - 普通用户reasoning model使用率从不到1%提升至7% Plus用户从7%提升至24% 传统企业用户仍主要使用4o模型渗透空间巨大 [25] - 幻觉显著优化：在CharXiv多模态基准测试中当移除所有图片后 o3在86.7%情况下仍错误回答而GPT-5仅占9% [28] - 推理效率提升：在优于o3的同时 token成本下降50%-80% API支持low/medium/high三档推理强度 [29] 工具使用创新 - 支持free-form function calling 不再依赖严格JSON schema 可先给出自然语言级工具意图由小模型解析执行 [33] - 实现parallel tool calling 能智能判断并行或串行执行有望解锁更长任务链 [35] - 工具使用设计思路接近Claude Code free-form function calling类似于subagent设计 [36] - 工具类型涵盖Internal Retrieval Web Search Code Interpreter和Actions四类 [32]