OpenAI惊人自曝：GPT-5真「降智」了，但重现「神之一手」，剑指代码王座

GPT-5性能表现 - GPT-5在门萨IQ测试中在线得分为118分，离线测试得分为70分，而GPT-5 Thinking版本分别获得85分和57分，创下OpenAI模型家族IQ测试有史以来的最低纪录[1][4] - 性能问题归因于路由故障，内部出现Sev级严重故障导致自动切换系统无法工作，使GPT-5表现降智[2][6][7] - 尽管存在短期问题，METR报告显示GPT-5仍处于帕累托前沿，智能呈指数级增长未放缓，延续Scaling Law的神话[9][11] 模型能力与优化 - GPT-5的核心优势在于提示工程，用户需构建完整思维框架并明确需求规格，模型可自主精准执行无需人工纠偏[12][13] - 在特定提示下如"think harder and solve"，GPT-5能正确解决简单方程式问题，且不会犯错[16][17] - 模型通过合成数据训练突破互联网数据枯竭限制，实现更全面的知识覆盖，成为一站式综合解决方案[41][43] 编程能力突破 - GPT-5被定位为OpenAI迄今最强大的编程模型，在复杂前端生成和调试大型代码库方面表现突出，能通过单一提示创建美观、响应式的网站、应用程序和游戏[28][29] - 在SWE-bench测试中达到74.9%的通过率，在Aider polyglot测试中达到88.0%，显著超越前代模型[38] - 获得行业广泛认可，被Cursor首席执行官称为"使用过的最智能的编码模型"，JetBrains称其使AI助手性能提升超过1.5倍[35][37] 行业竞争格局 - OpenAI年营收达120亿美元，Anthropic年营收接近50亿美元，后者增长主要得益于强大的编程能力[40] - OpenAI明确针对Anthropic的编程王座发起挑战，在新闻发布会和演示中重点强调编程能力[28][33] - 编程能力测试数据显示GPT-5在Function Calling方面表现卓越，在Tau2-bench零售测试中达到81.1%的通过率[39] 应用场景拓展 - 在医学领域展现突破性能力，生物医学家通过GPT-5分析未发表数据图，模型准确识别关键发现并提供实验方案建议，重现"神之一手"时刻[20][25] - 模型具备零样本学习新工具能力，如Python REPL和浏览器，在创造性任务中能提供惊喜解法[43] - 处理全球约71%的大模型查询，通过挖掘隐性行为信号指导模型改进，避免迎合性偏差[49][50] 技术发展路径 - OpenAI实现从"付费请人测试"到"用户主动订阅"的商业范式转变，ChatGPT发布72小时内突破百万用户[61][62] - 模型进入"自我迭代"阶段，AI模型协助创造下一代模型并能监督对人类过于复杂的工作[62][64] - 技术演进聚焦"智能体式推理"，通过更快更智能的模型减少用户干预，实现AI无缝融入日常和专业使用[43]