OpenAI靠GPT-5.5夺回第一

OpenAI发布GPT-5.5系列模型 - OpenAI于4月24日发布了GPT-5.5及面向更高阶任务的GPT-5.5 Pro版本，发布节奏明显加快 [2] - OpenAI称GPT-5.5是其迄今为止最智能、最直观易用的模型，是完成工作的新方式，能更快理解用户意图并承担更多工作 [2] - 距离上次发布GPT-5.4仅不到两个月，实测显示GPT-5.5在对话、速度、编程等方面均有进步 [5] 模型性能与市场地位 - 在第三方评测机构Artificial Analysis的综合智能指数榜单上，GPT-5.5系列拿下第一名和第二名，前六中包揽四席，被认为让OpenAI重回AI领域第一位，打破了与Anthropic和谷歌的三方平局 [5] - 模型擅长编写调试代码、在线搜索、分析数据、创建文档和电子表格、操作软件及在不同工具间灵活切换完成任务，具备自主规划和处理复杂多步骤任务的能力 [5] - 模型在提升智能的同时未牺牲速度，实际应用延迟与GPT-5.4相当，完成相同Codex编程任务所需的词元数量显著减少，效率更高 [6] - 官方称GPT-5.5是其迄今为止最强大的智能体编程模型，测试工程师表示其在推理和自主性方面明显优于GPT-5.4和Claude Opus 4.7，能提前发现问题并预测测试需求 [7] 定价策略与成本分析 - GPT-5.5定价相比上一代翻倍，标准版为每百万输入tokens 5美元、输出30美元，而GPT-5.4分别为2.5美元和15美元 [6] - GPT-5.5 Pro定价更高，为每百万输入tokens 30美元、输出180美元 [6] - 对比竞争对手Anthropic的最强模型Opus 4.7（输入5美元/百万tokens，输出25美元/百万tokens），GPT-5.5输入价格持平，但输出贵了20% [6] - OpenAI表示，虽然单价更高，但token效率的提升可对冲价格差异，大多数用户的实际使用成本不会有明显增加 [7] 基准测试表现对比 - 根据提供的基准测试数据，在多个项目中，GPT-5.5的表现与竞争对手互有胜负 [11] - 在Agentic terminal coding Terminal-Bench 2.0项目中，GPT-5.5得分为82.7%，高于Opus 4.7的69.4%和Gemini 3.1 Pro的68.5% [11] - 在Agentic search BrawseComp项目中，GPT-5.5得分为84.4%，低于Gemini 3.1 Pro的85.9%和Mythos Preview的86.9% [11] - 在Multilingual Q&A MMMLU项目中，GPT-5.5得分为83.2%，低于Opus 4.7的91.5%和Gemini 3.1 Pro的92.6% [11] - 在Graduate-level reasoning GPQA Diamond项目中，GPT-5.5得分为93.6%，略低于Opus 4.7的94.2%和Gemini 3.1 Pro的94.3% [11] 行业竞争格局与公司动态 - 在GPT-5.5发布前，其最强竞争对手Anthropic的旗舰模型Claude被大量开发者质疑“降智”，出现推理能力断崖式下跌和幻觉频发的问题 [12] - Anthropic在GPT-5.5发布后连夜发布报告，承认产品层调整导致模型性能下降，并称相关漏洞及限制已修复 [12] - 近几个月，OpenAI面临被Anthropic超越的压力，Anthropic在私募二级市场的估值已突破1万亿美元，而OpenAI今年3月末最新一轮融资的估值为8520亿美元 [14] - Anthropic宣布公司年化收入（ARR）已超过300亿美元，而OpenAI最新的年化收入为250亿美元，OpenAI内部备忘录称Anthropic年化营收存在约80亿美元水分，统一口径后实际约为220亿美元，仍低于OpenAI [14] - 行业认为，GPT Images 2和GPT-5.5的密集发布是OpenAI在竞争压力下的一次公开喊话，旨在重回牌桌中心 [14]