Workflow
马斯克拆台、微软抢先接入!GPT-5终于来了 一键生成网页、博士级智能 却因基准图错误遭吐槽
微软微软(HK:04338) 华夏时报·2025-08-08 08:27

产品发布与定位 - OpenAI于8月7日推出新一代旗舰AI模型GPT-5,并称其为"世界上最好的模型",将免费向所有用户开放[1] - 免费用户、Plus用户、Pro用户和团队用户当天即可使用,企业用户和教育用户将于下周开放访问[1] - GPT-5被定位为通往通用人工智能(AGI)的重要里程碑,公司首席执行官称其是"重要一步"[5][7] 性能表现与技术特性 - 在LMSYS Arena评分中,GPT-5以1,481分位列第一,高于谷歌Gemini 2.5 Pro的1,460分和xAI Grok 4的1,429分[4] - 在SWE-bench Verified编码基准测试中,GPT-5首次尝试准确率达74.9%,高于o3模型的69.1%和GPT-4o的30.8%[7] - 在Humanitys Last Exam测试中,GPT-5 Pro版本使用工具后得分42%,略低于Grok 4 Heavy的44.4%[10] - 模型采用统一系统架构,可自动识别何时需要快速响应或长时间思考,无需用户手动选择模式[4] 核心能力提升 - 编程能力显著增强,可凭单一提示创建完整网站、应用程序和游戏,在间距、排版等设计细节上有所改进[7] - 创意写作能力突出,能够处理无韵律抑扬格五音步诗和自由诗等复杂文体[13] - 健康咨询领域表现提升,在HealthBench Hard Hallucinations测试中错误信息率仅1.6%,远低于GPT-4o的15.8%和o3的12.9%[15] - 响应中包含事实错误的可能性比GPT-4o低约45%,比o3模型低约80%[17] 安全性与用户体验 - 进行了5000小时安全测试,采用新型"安全补全"训练方式,教模型在安全范围内提供最有帮助的答案[16][19] - 幻觉率显著降低,能更清晰地解释自身局限性,减少无根据的断言[16][19] - 提供四种可选预设性格(愤世嫉俗者、机器人、倾听者、书呆子),用户可调整交互风格[19][20] 生态系统整合 - 微软宣布将GPT-5集成到Copilot生态系统,包括Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry和Copilot Studio[30] - 新智能模式支持动态模型切换,增强推理和特定任务响应能力[30] - 开发人员可通过Azure AI Foundry利用GPT-5的模型路由器确保任务精度[30] 产品演示与市场反馈 - 演示中生成法语学习应用程序,几分钟内创建包含抽认卡、测验和贪吃蛇游戏的完整网页应用[2][13] - 发布会现场出现基准图表数据与显示不匹配的问题,例如编程测试中52.8%准确率标注对应了超过69.1%的柱状图高度[22] - 部分业内人士认为表现未达预期,特别是在ARC-AGI-2测试中未超越Grok 4[25][29]