文章核心观点 - OpenAI发布GPT-5,其能力被定位为“专家”级别,标志着AI模型在代码工程、多模态理解、推理能力和个性化Agent方面实现重大飞跃,可能重构生产力结构并冲击现有开发工具市场 [1][3][13] 模型性能与基准测试 - 在SWE‑Bench Verified评测中,GPT‑5取得74.9%的成绩,领先于o3模型的69.1% [15] - 在Aider Polyglot跨语言代码编辑测试中,GPT‑5成绩飙升至88%,错误率相比之前降低三分之一 [15] - 回答事实类问题时,GPT‑5的“幻觉”错误率相对GPT‑4o减少约45%,相对o3减少约80% [18] - 在医疗场景测试(HealthBench Hard Hallucinations)中,GPT‑5的生成错误率仅为1.6%,远低于GPT‑4o的12.9%和o3的15.8% [18] 编程与工程能力 - GPT‑5被定位为“工程级开发助手”,具备从理解需求、拆解任务到编写、调试和部署代码的全流程能力 [7][8] - 现场演示中,GPT‑5两分钟生成420行代码,创建了一个可交互的SVG动画来解释伯努利效应 [21] - 五分钟内根据自然语言描述,搭建了一个包含卡片、猜词游戏和“老鼠吃芝士”小游戏的互动式法语学习App [24][26] - 能够识别并修复真实项目代码中的关键Bug,并提出解决方案,模拟运行无误通过 [30] - 五分钟内根据企业数据,创建了一个支持动态调整的、即用级别的可视化财务看板 [33] - OpenAI CEO称这是其“有史以来最强的编程模型”,并宣布GPT‑5将在未来几天内正式登陆Cursor编辑器 [9][35] 产品矩阵与定价 - OpenAI发布了面向不同用户的模型矩阵,包括GPT‑5 Standard、GPT‑5 Mini(轻量版)和GPT‑5 Nano(嵌入式和移动端使用) [9] - 三个版本均面向API和企业客户开放,按百万tokens计费 [10] - 输入价格分别为1.25美元、0.25美元和0.05美元每百万tokens [10] - 输出价格分别为10美元、2美元和0.4美元每百万tokens [10] 个性化与智能体(Agent)能力 - GPT‑5展现出深度的个性化能力,能够接入用户的日历、邮件等信息,自动检查遗漏事务并生成个性化的日程规划 [38] - 其Agent能力基于认知能力的提升,通过理解用户、记忆历史并联动外部信息来动态调整策略,实现“定制级智能体” [38] - 在健康医疗领域演示中,GPT‑5能将复杂的医学报告翻译成日常语言,对比不同治疗方案的利弊,并从心理与生活角度帮助患者评估选择 [43] 行业影响与竞争 - GPT‑5的发布可能对现有AI编程工具(如Copilot、Replit、Cursor等)市场构成冲击,面临被整合或重塑的风险 [9] - 发布会期间,Elon Musk在X上宣称其AI模型“Grok在一般推理任务上已经超过GPT-5”,显示行业竞争加剧 [46]
GPT-5快抢走打工人饭碗了
虎嗅·2025-08-08 06:44