Workflow
OpenAI惊人自曝:GPT-5真「降智」了,但重现「神之一手」,剑指代码王座
36氪·2025-08-12 11:28

GPT-5性能表现 - GPT-5在门萨IQ测试中在线得分为118分,离线测试得分为70分,而GPT-5 Thinking版本分别获得85分和57分,创下OpenAI模型家族IQ测试有史以来的最低纪录[1][4] - 性能问题归因于路由故障,内部出现Sev级严重故障导致自动切换系统无法工作,使GPT-5表现降智[2][6][7] - 尽管存在短期问题,METR报告显示GPT-5仍处于帕累托前沿,智能呈指数级增长未放缓,延续Scaling Law的神话[9][11] 模型能力与优化 - GPT-5的核心优势在于提示工程,用户需构建完整思维框架并明确需求规格,模型可自主精准执行无需人工纠偏[12][13] - 在特定提示下如"think harder and solve",GPT-5能正确解决简单方程式问题,且不会犯错[16][17] - 模型通过合成数据训练突破互联网数据枯竭限制,实现更全面的知识覆盖,成为一站式综合解决方案[41][43] 编程能力突破 - GPT-5被定位为OpenAI迄今最强大的编程模型,在复杂前端生成和调试大型代码库方面表现突出,能通过单一提示创建美观、响应式的网站、应用程序和游戏[28][29] - 在SWE-bench测试中达到74.9%的通过率,在Aider polyglot测试中达到88.0%,显著超越前代模型[38] - 获得行业广泛认可,被Cursor首席执行官称为"使用过的最智能的编码模型",JetBrains称其使AI助手性能提升超过1.5倍[35][37] 行业竞争格局 - OpenAI年营收达120亿美元,Anthropic年营收接近50亿美元,后者增长主要得益于强大的编程能力[40] - OpenAI明确针对Anthropic的编程王座发起挑战,在新闻发布会和演示中重点强调编程能力[28][33] - 编程能力测试数据显示GPT-5在Function Calling方面表现卓越,在Tau2-bench零售测试中达到81.1%的通过率[39] 应用场景拓展 - 在医学领域展现突破性能力,生物医学家通过GPT-5分析未发表数据图,模型准确识别关键发现并提供实验方案建议,重现"神之一手"时刻[20][25] - 模型具备零样本学习新工具能力,如Python REPL和浏览器,在创造性任务中能提供惊喜解法[43] - 处理全球约71%的大模型查询,通过挖掘隐性行为信号指导模型改进,避免迎合性偏差[49][50] 技术发展路径 - OpenAI实现从"付费请人测试"到"用户主动订阅"的商业范式转变,ChatGPT发布72小时内突破百万用户[61][62] - 模型进入"自我迭代"阶段,AI模型协助创造下一代模型并能监督对人类过于复杂的工作[62][64] - 技术演进聚焦"智能体式推理",通过更快更智能的模型减少用户干预,实现AI无缝融入日常和专业使用[43]