OpenAI GPT-5 发布:模型能力全面“屠榜”,构建“超级智能”第一步
36氪·2025-08-08 09:20

产品发布与核心性能 - OpenAI 于8月8日发布了GPT-5,并举行了时长超过一小时的发布会 [1] - GPT-5在文本、WebDev和视觉感知领域排名第一,在硬提示、编码、数学、创造力、长查询等方面也排名第一,保持着最高的Arena分数 [3] - 公司CEO Sam Altman将GPT-4o比作中学生,将GPT-5比作大学生甚至博士级别的专家,并称其为“第一部配备视网膜显示屏的iPhone” [5] - Altman断言GPT-5是世界上编码能力最强、写作能力最强以及在医疗保健领域最强的模型 [5] - GPT-5不仅在智能上实现“巨大飞跃”,还大幅减少了“一本正经胡说八道”的幻觉问题,在理解和遵循指令方面表现更出色,拍马屁倾向也大大降低 [5] 模型阵容与定价 - GPT-5系列包含GPT-5、mini、nano、chat四个版本,其中Chat版本旨在实现更自然、更智能的响应 [6] - 标准版GPT-5定价为每百万输入Token 1.25美元,每百万输出Token 10美元;mini版定价为每百万输入Token 0.25美元,输出2.00美元;nano版定价为每百万输入Token 0.05美元,输出0.40美元 [7][25][26] - 所有ChatGPT用户现在可以免费体验GPT-5,这是公司首次向所有用户免费开放前沿模型 [23] - Plus订阅用户在达到使用上限前有更多使用次数,Pro订阅用户可以访问具备更强推理能力的GPT-5 Pro版本 [23] - 当用户达到使用上限后,系统会自动切换到“迷你版”GPT-5处理后续请求 [23] 技术能力提升与可靠性 - GPT-5的幻觉问题“显著降低”,在联网搜索时,其回答出现事实错误的概率比GPT-4o低了45% [8] - 在独立思考时,其回答出错的概率比OpenAI o3推理模型低了80% [10] - GPT-5变得更“诚实”,当遇到不可能完成、指令不明确或缺少关键工具的任务时,会更诚实地沟通自己的局限 [13] - 公司为GPT-5引入了四种可选的“人格”模式:犬儒、机器人、倾听者和学霸,用户可设定互动方式 [13] - 公司开发了一个路由系统,会自动为更复杂的查询切换到推理能力更强的版本 [8] 编码与软件生成能力 - 公司预测GPT-5强大的编码能力将开启“软件按需生成”的时代 [15] - 在测试中,GPT-5在SWE-Bench、SWE-Lancer和Aider Polyglot等多个编码基准测试中表现均优于其他模型,在人类最终测试中取得42%的成绩,在SWE基准测试中取得75%的成绩 [15] - 发布会现场演示了GPT-5在几秒钟内生成一个用于学习法语并带有互动游戏的网站,编写了数百行代码并展示了前端界面 [17] - 发布会还展示了一款仅靠一段提示词就由GPT-5创作的3D游戏,其3D场景画面精致且物理效果准确 [20] 安全性与合规性 - 公司对GPT-5进行了“超过五千小时”的测试以了解其安全风险,重点是确保模型不会对用户撒谎 [19] - 对于以前会直接拒绝回答的提示,GPT-5将提供“安全补全”机制,试图在保持安全的约束下给出尽可能有帮助的答案 [19][22] - 模型通常只会部分遵从恶意提示,并提供一些无法被实际用于造成伤害的更宏观层面的信息 [22] 生态整合与行业影响 - GPT-5已在微软全系平台上线,包括Microsoft 365 Copilot、Copilot、GitHub Copilot和Azure AI Foundry [28] - 所有这些模型的改进均在Azure上进行训练 [28] - 公司CEO表示,GPT-5使他们更接近开发通用人工智能(AGI)的使命,是朝着真正强大的模型迈出的重要一步 [30] - Altman认为GPT-5是AGI的“种子”,因为它能从所发现的新事物中生长出来 [30]