马斯克拆台、微软抢先接入！GPT-5终于来了一键生成网页、博士级智能却因基准图错误遭吐槽

产品发布与定位 - OpenAI于8月7日推出新一代旗舰AI模型GPT-5，并称其为"世界上最好的模型"，将免费向所有用户开放[1] - 免费用户、Plus用户、Pro用户和团队用户当天即可使用，企业用户和教育用户将于下周开放访问[1] - GPT-5被定位为通往通用人工智能（AGI）的重要里程碑，公司首席执行官称其是"重要一步"[5][7] 性能表现与技术特性 - 在LMSYS Arena评分中，GPT-5以1,481分位列第一，高于谷歌Gemini 2.5 Pro的1,460分和xAI Grok 4的1,429分[4] - 在SWE-bench Verified编码基准测试中，GPT-5首次尝试准确率达74.9%，高于o3模型的69.1%和GPT-4o的30.8%[7] - 在Humanitys Last Exam测试中，GPT-5 Pro版本使用工具后得分42%，略低于Grok 4 Heavy的44.4%[10] - 模型采用统一系统架构，可自动识别何时需要快速响应或长时间思考，无需用户手动选择模式[4] 核心能力提升 - 编程能力显著增强，可凭单一提示创建完整网站、应用程序和游戏，在间距、排版等设计细节上有所改进[7] - 创意写作能力突出，能够处理无韵律抑扬格五音步诗和自由诗等复杂文体[13] - 健康咨询领域表现提升，在HealthBench Hard Hallucinations测试中错误信息率仅1.6%，远低于GPT-4o的15.8%和o3的12.9%[15] - 响应中包含事实错误的可能性比GPT-4o低约45%，比o3模型低约80%[17] 安全性与用户体验 - 进行了5000小时安全测试，采用新型"安全补全"训练方式，教模型在安全范围内提供最有帮助的答案[16][19] - 幻觉率显著降低，能更清晰地解释自身局限性，减少无根据的断言[16][19] - 提供四种可选预设性格（愤世嫉俗者、机器人、倾听者、书呆子），用户可调整交互风格[19][20] 生态系统整合 - 微软宣布将GPT-5集成到Copilot生态系统，包括Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry和Copilot Studio[30] - 新智能模式支持动态模型切换，增强推理和特定任务响应能力[30] - 开发人员可通过Azure AI Foundry利用GPT-5的模型路由器确保任务精度[30] 产品演示与市场反馈 - 演示中生成法语学习应用程序，几分钟内创建包含抽认卡、测验和贪吃蛇游戏的完整网页应用[2][13] - 发布会现场出现基准图表数据与显示不匹配的问题，例如编程测试中52.8%准确率标注对应了超过69.1%的柱状图高度[22] - 部分业内人士认为表现未达预期，特别是在ARC-AGI-2测试中未超越Grok 4[25][29]