模型架构革新 - GPT-5采用三模型组合系统(路由模型、推理模型、非推理模型)[3] - 路由模型动态分配任务至最优模型,降低API成本22%(对比GPT-4.1)[7] - 推理模型支持5级推理强度控制,高复杂度任务完成率提升34%[7] - 非推理模型高频任务响应时延降低15%,企业服务吞吐量提升28%[7] - 提供三种规格(main/mini/nano),输入token价格最低至每百万$0.05(nano版)[8] - 支持最大400K tokens上下文窗口,但较GPT-4.1的1047K有所下降[19][20] 性能与效率提升 - 在视觉推理、代码和科学问题解决等领域,用更少token实现优于OpenAI o3的表现[9] - 智能体任务中输出token数量减少22%,工具调用次数减少45%[25] - 开发者可通过API分别控制思考过程与回复的token数量[3][13] - 在SWE-bench Verified评估中得分达74.9%,较o3版本69.1%提升[25] 核心能力优化 - 重点优化代码、写作、健康领域及职业相关任务(法律/物流/销售/工程等)[4][41] - 在多学科基准测试中领先:MMMU(图文混合)、VideoMMMU(视频理解)、HealthBench(医疗对话)[37][39] - 内部经济价值任务评估显示,GPT-5在40多个职业任务中全面超越o3和ChatGPT Agent[41] - 工具使用能力增强,支持自由文本和JSON两种调用格式[4] 用户体验改进 - 新增4种预设人格(毒舌/机器人/倾听者/技术迷)[4][50] - 谄媚回复比例从14.5%降至不足6%,减少多余表情符号使用[47] - 采用safe completions技术,在安全边界内提供最大帮助[51] - 缓解幻觉、欺骗性回答(如编程任务中虚假完成率下降)[4][49] 安全与对抗能力 - 在Agent Red Teaming基准测试中违规率为56.8%,虽优于其他模型但仍存隐患[53][54] - 对单轮网络攻击具有极高抵抗力,多轮定制化攻击需高技术门槛[55] - 微软评估认为其在前沿技术安全领域较o3有显著优势[55] 技术演进趋势 - 升级重点从显性突破转向隐性优化(推理效率/长上下文利用率/幻觉抑制)[59] - 普通用户感知滞后因优化集中于高维能力(逻辑深度/极端场景鲁棒性)[60] - 下一代感知质变需满足持续性记忆、多模态执行、自主任务管理三大信号[65] - 预计2027-2029年可能出现感知级AGI前夜[62]
理想分享自己对GPT-5的理解