产品发布与定位 - GPT-5作为GPT-4的重大升级正式发布,是公司在实现通用人工智能道路上的一个重要里程碑[3] - 公司推出包含GPT-5、GPT-5-mini、GPT-5-nano在内的多版本分层模型,旨在构建以GPT-5为底层核心的通用智能操作系统[5] - 该模型现已成为ChatGPT中的默认模型,取代了GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5等先前版本[5] 性能表现与技术优势 - 在LMArena的基准测试中,GPT-5在文本、Web开发和视觉领域排名第一,持有最高的竞技场分数[6][7] - 在SWEBench编码基准测试中创下74.9%的高分,在Aider Polyglot多语种编码测试中达到88%的准确率,表现优于其他模型[10][67] - 模型在真实性方面有显著提升,通过专门评估机制验证其为最可靠、最真实、最可信的模型,显著减少错误与幻觉[12] - 支持400k token的上下文窗口,是之前o3模型200k token的两倍,在上下文检索能力上处于领先[72] 商业模式与市场应用 - 所有Plus、Pro、Team和Free用户均可使用GPT-5,付费订阅用户可无限制访问GPT-5和GPT-5 Pro[6] - 面向开发者开放GPT-5 API,提供三款模型选择:GPT-5输入价格为1.25美元/百万token,GPT-5 mini为0.25美元/百万token,GPT-5 nano为0.05美元/百万token[65][67] - 模型在智能体工具调用方面表现卓越,在T²-bench上取得97%的高分,远超两个月前不超过49%的行业水平[67] - 在健康领域表现突出,在250名医生参与设计的临床场景评估中成为最值得信赖的健康顾问级模型[12] 核心技术突破 - 训练方法采用合成教学数据,通过递归式自我改进循环,利用上一代模型生成的教学内容使GPT-5学会推理、规划及分解任务的能力[51][54] - 模型结合了标准模型的快速响应和推理模型的深度思考,能自动决定思考深度以提供恰当回答[30] - 为API引入名为“Minimal”的推理强度新参数,适用于对延迟敏感的应用,并新增自定义工具、工具调用前言和详细度参数等新功能[74][76][78] 行业影响与开发者工具 - 模型在结对编程中展现出10倍生产力,能够理解软件工程最佳实践并具备协作能力,通过元提示词修改自身提示词[80][82][84] - 在前端编码任务中,能在5分钟内完成公司数据可视化仪表盘的设计与开发,并自主修复bug[85][87] - 能够快速生成复杂的交互式应用,例如在演示中短时间内创建了包含3D城堡、可交互角色和音效的游戏[89][91][93]
GPT-5王者降临,免费博士级AI全面屠榜,百万程序员不眠之夜,7亿人沸腾
36氪·2025-08-08 15:16