Workflow
OpenAI 惊人自曝:GPT-5 真“降智”了!但重现“神之一手”,剑指代码王座
程序员的那些事·2025-08-11 10:38

GPT-5性能表现与争议 - GPT-5在门萨IQ测试中在线得分为118分,离线测试仅70分,而GPT-5 Thinking分别获得85分和57分,创下OpenAI模型家族IQ测试最低纪录[4][6] - 性能差异主要归因于路由问题,即单体模型中特定组件决定智能表现,而非模型本身能力不足[7][8][11] - 尽管测试结果引发争议,METR报告显示GPT-5仍处于帕累托前沿,智能增长保持指数级趋势,延续Scaling Law神话[13][14] 提示工程的关键作用 - 模型潜力需通过有效提示激发,系统思维用户可通过构建完整框架和明确需求规格使GPT-5自主执行任务[16][17][18] - 具体案例显示,添加"think harder and solve"等提示词可解决简单方程式求解问题,而威胁性提示如"答不对小心Bambi妈妈找你算账"能确保答案准确性[20][21][22][25] - 网友曝出的GPT-5系统提示被形容为金矿,凸显提示工程对释放模型能力的重要性[28] 医学与科研应用突破 - 生物医学家Derya Unutmaz使用GPT-5分析未发表免疫学数据,模型准确识别关键发现并提出实验方案,最终解释全部实验结果[32][34][38][39] - 这一过程被类比为AlphaGo的"神之一手"时刻,证明GPT-5具备顶尖专家级科研协作能力[31][39][44] 编程能力与行业竞争 - GPT-5在编程基准测试中表现突出:SWE-bench达74.9%,Aider polyglot达88.0%,Tau2-bench零售场景达81.1%[62][63] - OpenAI强调GPT-5为迄今最强编程模型,可生成复杂前端代码和调试大型代码库,直接挑战Anthropic的Claude模型统治地位[41][46][48][49] - 行业高管评价积极:Cursor CEO称其为最智能编码模型,Vercel CEO认可其前端能力,JetBrains CEO指出其使开发工具性能提升1.5倍[58][59][61] 商业模式与营收对比 - Anthropic年营收接近50亿美元,主要依赖编程应用需求增长,而OpenAI年营收达120亿美元,反映更广泛业务规模[64][65] - OpenAI经历商业模式转变:从付费请人测试(如GPT-3.5前身)转向用户主动订阅,ChatGPT上线72小时即突破百万用户[88][92] 技术架构与发展方向 - 训练突破依赖合成数据,解决互联网数据枯竭问题,实现更全面知识覆盖[68][69] - 核心方向为智能体式推理,通过速度优化整合推理与非推理能力,成为一站式解决方案[71][72][74] - 模型具备零样本学习新工具能力,如Python REPL和浏览器,下一步目标是将LLM能力提升至理论框架层面[77] 产品迭代与公司战略 - GPT系列演进路径:GPT-3跨过可用门槛,GPT-4具备现实可用性,GPT-5在可靠性、代码能力上设定新标准[85] - 公司采用多线并行开发策略,结合算法优化、硬件改进及开源社区经验,实现快速迭代[79][80][82] - ChatGPT处理全球71%大模型查询,公司通过挖掘隐性行为信号而非仅依赖点赞数据指导模型改进[83]