刚刚，GPT-5.5发布！更强更快更贵，内测英伟达工程师：失去它像被截肢

产品发布与核心定位 - OpenAI正式发布了新型AI模型GPT-5.5，其官方定位为“一种面向实际工作和智能体的新型智能”[1][2] - 该模型在编程、知识工作和科学研究三个关键领域相比前代GPT-5.4实现了全面性能提升[9] 性能表现与基准测试 - 在衡量复杂命令行工作流的Terminal-Bench 2.0测试中，GPT-5.5得分为82.7%，显著高于GPT-5.4的75.1%和竞品Claude Opus 4.7的69.4%[26][27] - 在知识工作基准测试GDPval上，GPT-5.5获得84.9%的得分，比Claude Opus 4.7高出4.6个百分点[41] - 在最难的数学基准之一FrontierMath Tier 4测试中，GPT-5.5 Pro得分39.6%，接近竞品Claude Opus 4.7得分22.9%的两倍[44] - 在网络安全能力测试CyberGym中，GPT-5.5得分为81.8%，高于GPT-5.4的79.0%和Claude Opus 4.7的73.1%[10] - 在工具使用测试Toolathalon中，GPT-5.5得分为55.6%，高于GPT-5.4的54.6%和Gemini 3.1 Pro的48.8%[10] - 在高级数学测试FrontierMath (Tier 1-3 & Tier 4)中，GPT-5.5得分分别为51.7%和35.4%，均高于GPT-5.4的47.6%和27.1%[45] - 在Agentic browsing测试BrowseComp中，GPT-5.5 Pro得分高达90.1%，表现优异[10] 效率突破与成本 - GPT-5.5打破了模型升级“更强但更慢”的规律，在真实生产环境中其逐token延迟与GPT-5.4相当，但完成相同任务所需的token更少[16] - 根据Artificial Analysis Intelligence Index测试，GPT-5.5在获得相同分数时比Claude Opus 4.7等模型消耗的token更少，或在消耗同样token时能完成更多任务[10][11] - 尽管性能大幅提升，但GPT-5.5的价格翻倍[18] 编程能力跃迁 - 编程是GPT-5.5提升最显著的领域，其驱动的Codex系统上下文窗口已升级至400K[21] - 该模型能够自主拆解需求、执行并检查结果，用户只需查看最终成果[22] - OpenAI展示了由GPT-5.5生成的、可直接在网页上运行的3D动作游戏，实现了包括战斗系统、敌人遭遇等完整功能[23][24] - 早期测试者实验表明，GPT-5.5能够独立复现顶尖工程师对复杂bug的重构决策，而GPT-5.4无法做到，测试者称其展现了真正的“概念清晰度”[32][33] - 高级工程师反馈称，GPT-5.5在推理和自主性上明显强于前代及竞品，能够提前发现问题并预测测试需求[35][36] 知识工作与科学研究应用 - OpenAI内部超过85%的员工每周使用Codex进行工作[40] - 波兰亚当·密茨凯维奇大学的数学助理教授使用Codex，仅用一句话指令便在11分钟内创建了一个代数几何可视化应用，大幅提升了研究效率[46][47] - 杰克逊基因组医学实验室的免疫学教授使用GPT-5.5 Pro分析了包含62个样本、近28000个基因的数据集，并产出了完整研究报告，该工作原本需要团队数月时间[49][50] - GPT-5.5在科研中被定位为“研究伙伴”，能够进行多轮论文批改、挑出论证漏洞并基于前序对话提出新的分析方案[51] - 在纯数学领域，GPT-5.5针对长期悬而未决的“off-diagonal Ramsey数的渐近性质”问题，找到了一条新的证明路径，并得到了形式化验证工具Lean的确认，这是AI在核心数学领域的原创性贡献[55][59] 技术实现与深度合作 - GPT-5.5与英伟达GB200、GB300 NVL72系统进行了前所未有的联合设计，实现了从训练到部署的模型与硬件深度协同[5][6] - OpenAI与英伟达的合作还包括将Codex推广至英伟达全公司[7] - “更强却更快”的实现源于对整个推理系统的推倒重来，以及与英伟达硬件的联合优化[61][62] - GPT-5.5驱动的Codex系统通过分析数周的生产流量数据，自主编写了一套自适应的负载均衡分区启发式算法，使token生成速度提升了超过20%，实现了AI对自身运行基础设施的优化[64][66] - 推理系统的整体重构与模型参与自身优化相结合，共同促成了此次性能与效率的突破[67] 行业影响与未来展望 - OpenAI首席科学家Jakub Pachocki表示，公司预计在拥有GPT-5.5后，模型发布数据将加快，并认为过去几年AI进展“出乎意料地缓慢”[69][71][72] - 该模型的发布被视为“迈向用计算机完成工作的新方式的一步”[68]