Nvidia-GPT-5.5正式发布：更聪明、更省token 英伟达工程师：失去它就像被截肢

模型性能与技术进步 - 新模型的核心突破在于从对话工具转变为能独立执行复杂任务的自主执行者，可自主完成理清头绪、规划步骤、调用工具、校验结果和持续推进的全过程[1] - 在复杂终端操作评测Terminal-Bench 2.0上得分82.7%，较前代GPT-5.4的75.1%有显著提升[1] - 在软件工程评测SWE-Bench Pro上得分58.6%，在内部长周期任务测试Expert-SWE上达到73.1%，且完成这三项测试均消耗了更少的token[1] - 在跨44种职业的综合评测GDPval中，其胜出或打平的比例达到84.9%[1] - 在模拟客服工作流的Tau2-bench Telecom场景中得分98.0%，高于GPT-5.4的92.8%[1] - 在模拟真实计算机操作的OSWorld评测中得分78.7%[1] - 在生物信息学评测BixBench上得分80.5%，位列所有已公布成绩的模型之首[2] - 一版内部模型证明了一个关于Ramsey数的长期猜想，并在证明助手Lean中完成了形式化验证[2] 技术优化与硬件协同 - 模型针对英伟达GB200/GB300 NVL72系统进行了联合设计[2] - 其每token延迟与GPT-5.4持平，同时通过负载均衡优化，token生成速度提升了超过20%[2] - 在执行相同的Codex任务时，GPT-5.5所消耗的token数量显著少于前代模型[2] 市场发布与定价 - 模型已向ChatGPT Plus、Pro、Business和Enterprise用户开放[3] - 提供的Codex服务支持最高400K的上下文窗口[3] - API版本即将上线，标准定价为每百万输入token 5美元、每百万输出token 30美元[3] - GPT-5.5 Pro的API定价分别为每百万输入token 30美元和每百万输出token 180美元[3] 早期用户反馈 - Cursor联合创始人兼CEO Michael Truell评价称，GPT-5.5面对漫长复杂的任务时能坚持到底，不会中途停摆[2] - Every创始人兼CEO Dan Shipper验证了模型能独立输出一套水准堪比资深工程师的系统重构方案[2] - 一位英伟达工程师表示，失去GPT-5.5的访问权限感觉“就像肢体被截肢了一样”[2]