Workflow
Ramsey数
icon
搜索文档
刚刚,GPT-5.5发布,更强更快更贵,内测英伟达工程师:失去它像被截肢
36氪· 2026-04-24 08:17
GPT-5.5模型发布与核心性能 - OpenAI发布新型智能GPT-5.5,官方定位为面向实际工作和智能体的新型智能 [1] - 与上一代GPT-5.4相比,新模型在代码、知识工作、科学研究三个领域性能全面领先 [4] - 在真实生产环境中,GPT-5.5的逐token延迟与GPT-5.4相当,但完成相同任务所需token更少,实现了效率更高且功能更强大,打破了以往模型升级“更强”与“更慢”打包出现的规律 [9][10] 编程能力显著跃升 - 编程是GPT-5.5提升最显著的领域,能够自主拆解、执行和检查复杂编程任务 [12] - 在Terminal-Bench 2.0(衡量复杂命令行工作流的测试)中,GPT-5.5得分82.7%,高于GPT-5.4的75.1%和Claude Opus 4.7的69.4% [13][14] - 早期测试显示,GPT-5.5展现出真正的“概念清晰度”和高级推理能力,能够独立解决此前GPT-5.4无法处理的编程问题,其自主性和推理能力被多位高级工程师认为明显强于GPT-5.4和Claude Opus 4.7 [15][16][18] 知识工作与科学研究应用 - 在知识工作基准测试GDPval上,GPT-5.5获得84.9%的分数,比Claude Opus 4.7高出4.6个百分点 [22] - 在最难的数学基准测试之一FrontierMath Tier 4中,GPT-5.5 Pro得分39.6%,是Claude Opus 4.7(22.9%)的近一倍 [23] - GPT-5.5在科研中被定位为“研究伙伴”,能进行多轮深度对话、批改论文并提出新方案,甚至在纯数学核心领域(如Ramsey数问题)做出了被形式化验证工具Lean确认的原创性贡献 [25][26][27] 与英伟达的深度合作与系统优化 - OpenAI与英伟达进行了前所未有的合作,GPT-5.5与英伟达GB200、GB300 NVL72系统是联合设计的,实现了从训练到部署的深度协同 [2] - GPT-5.5驱动的Codex系统通过分析生产流量数据,自主编写了一套自适应的负载均衡分区启发式算法,使token生成速度提升了超过20% [30][31] - 性能突破源于推理系统的整体重构以及模型参与自身基础设施优化的双重效应 [32] 市场影响与未来展望 - GPT-5.5的价格相比前代翻倍 [11] - 其上下文窗口已升级至400K [12] - OpenAI内部超过85%的员工每周使用Codex进行工作 [22] - OpenAI预计在GPT-5.5之后,模型发布节奏将加快,公司首席科学家认为短期内将看到“相当显著的进步”,中期将有“极其显著的进步” [34][35][37]
刚刚,GPT-5.5发布!更强更快更贵,内测英伟达工程师:失去它像被截肢
量子位· 2026-04-24 04:24
产品发布与核心定位 - OpenAI正式发布了新型AI模型GPT-5.5,其官方定位为“一种面向实际工作和智能体的新型智能”[1][2] - 该模型在编程、知识工作和科学研究三个关键领域相比前代GPT-5.4实现了全面性能提升[9] 性能表现与基准测试 - 在衡量复杂命令行工作流的Terminal-Bench 2.0测试中,GPT-5.5得分为82.7%,显著高于GPT-5.4的75.1%和竞品Claude Opus 4.7的69.4%[26][27] - 在知识工作基准测试GDPval上,GPT-5.5获得84.9%的得分,比Claude Opus 4.7高出4.6个百分点[41] - 在最难的数学基准之一FrontierMath Tier 4测试中,GPT-5.5 Pro得分39.6%,接近竞品Claude Opus 4.7得分22.9%的两倍[44] - 在网络安全能力测试CyberGym中,GPT-5.5得分为81.8%,高于GPT-5.4的79.0%和Claude Opus 4.7的73.1%[10] - 在工具使用测试Toolathalon中,GPT-5.5得分为55.6%,高于GPT-5.4的54.6%和Gemini 3.1 Pro的48.8%[10] - 在高级数学测试FrontierMath (Tier 1-3 & Tier 4)中,GPT-5.5得分分别为51.7%和35.4%,均高于GPT-5.4的47.6%和27.1%[45] - 在Agentic browsing测试BrowseComp中,GPT-5.5 Pro得分高达90.1%,表现优异[10] 效率突破与成本 - GPT-5.5打破了模型升级“更强但更慢”的规律,在真实生产环境中其逐token延迟与GPT-5.4相当,但完成相同任务所需的token更少[16] - 根据Artificial Analysis Intelligence Index测试,GPT-5.5在获得相同分数时比Claude Opus 4.7等模型消耗的token更少,或在消耗同样token时能完成更多任务[10][11] - 尽管性能大幅提升,但GPT-5.5的价格翻倍[18] 编程能力跃迁 - 编程是GPT-5.5提升最显著的领域,其驱动的Codex系统上下文窗口已升级至400K[21] - 该模型能够自主拆解需求、执行并检查结果,用户只需查看最终成果[22] - OpenAI展示了由GPT-5.5生成的、可直接在网页上运行的3D动作游戏,实现了包括战斗系统、敌人遭遇等完整功能[23][24] - 早期测试者实验表明,GPT-5.5能够独立复现顶尖工程师对复杂bug的重构决策,而GPT-5.4无法做到,测试者称其展现了真正的“概念清晰度”[32][33] - 高级工程师反馈称,GPT-5.5在推理和自主性上明显强于前代及竞品,能够提前发现问题并预测测试需求[35][36] 知识工作与科学研究应用 - OpenAI内部超过85%的员工每周使用Codex进行工作[40] - 波兰亚当·密茨凯维奇大学的数学助理教授使用Codex,仅用一句话指令便在11分钟内创建了一个代数几何可视化应用,大幅提升了研究效率[46][47] - 杰克逊基因组医学实验室的免疫学教授使用GPT-5.5 Pro分析了包含62个样本、近28000个基因的数据集,并产出了完整研究报告,该工作原本需要团队数月时间[49][50] - GPT-5.5在科研中被定位为“研究伙伴”,能够进行多轮论文批改、挑出论证漏洞并基于前序对话提出新的分析方案[51] - 在纯数学领域,GPT-5.5针对长期悬而未决的“off-diagonal Ramsey数的渐近性质”问题,找到了一条新的证明路径,并得到了形式化验证工具Lean的确认,这是AI在核心数学领域的原创性贡献[55][59] 技术实现与深度合作 - GPT-5.5与英伟达GB200、GB300 NVL72系统进行了前所未有的联合设计,实现了从训练到部署的模型与硬件深度协同[5][6] - OpenAI与英伟达的合作还包括将Codex推广至英伟达全公司[7] - “更强却更快”的实现源于对整个推理系统的推倒重来,以及与英伟达硬件的联合优化[61][62] - GPT-5.5驱动的Codex系统通过分析数周的生产流量数据,自主编写了一套自适应的负载均衡分区启发式算法,使token生成速度提升了超过20%,实现了AI对自身运行基础设施的优化[64][66] - 推理系统的整体重构与模型参与自身优化相结合,共同促成了此次性能与效率的突破[67] 行业影响与未来展望 - OpenAI首席科学家Jakub Pachocki表示,公司预计在拥有GPT-5.5后,模型发布数据将加快,并认为过去几年AI进展“出乎意料地缓慢”[69][71][72] - 该模型的发布被视为“迈向用计算机完成工作的新方式的一步”[68]