Workflow
GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够
AI前线·2025-09-04 14:30

GPT-5企业市场表现 - GPT-5目标用户为企业市场而非普通消费者[2] - 多家初创公司如Cursor、Vercel和Factory已将GPT-5设为默认模型 因其设置速度更快 复杂任务表现更出色且价格更低廉[2] - 在代码和界面设计领域 GPT-5已能与Anthropic的Claude相匹敌甚至实现超越[2] 企业客户反馈与测试 - Box针对长篇逻辑性文档测试GPT-5 其CEO称该模型推理能力是以往系统无法比拟的突破[3] - JetBrains将GPT-5设为AI Assistant和Kineto的默认语言 因其能快速生成单一用途工具[3] - Factory与OpenAI合作将GPT-5设为默认工具语言 其CEO指出GPT-5在制定复杂编码解决方案计划方面表现更好 长期计划连贯性更优[3] - Lovable公司对GPT-5 Beta测试非常满意 发现其在复杂用例中更强大智能 且更易采取行动并反思[4] 技术发展与模型能力 - GPT-5代表几乎难以形容的智能 能在IMO数学竞赛中写出顶尖人类水平证明 这是前所未有的突破[22] - 模型从纯文本GPT-3 多模态GPT-4发展到GPT-5时代核心特征为与AI合作的科研模式 加速人类研究进展[22][23] - 在强化学习范式下 模型通过尝试和反馈学习 人类设计任务价值极高但需要成比例投入更多算力[12] - 从GPT-4发布至今 同等智能水平成本已降低1000倍 仅用两年半时间[35] 算力与扩展 - 模型发展瓶颈永远是算力 只要有足够算力就能找到方法迭代并充分利用[12] - 算力可分配到不同维度 如让模型更大 投入更多预训练算力或更多推向强化学习[13] - 算力是从能量变成算力再变成智能的结晶化过程 训练时投入大量算力但可无数次复用摊薄成本[14] 模型应用与泛化 - GPT-5在需要深度智能的复杂问题上表现比任何其他测试模型都好[24] - 模型已能泛化到不同领域 如IMO模型也能在IOI中获得金牌 无需专门训练[14] - 在生物学领域 训练400亿参数模型处理DNA序列 效果相当于GPT-1到GPT-2之间 但需解决长上下文挑战[19] 开发与工程实践 - 开发者需积累提示词库 测试模型优势和短板 并思考如何拆分任务让模型处理自包含子任务[25] - 代码库应围绕模型优劣构建 更独立单元 快速运行单元测试和清晰文档[41] - 模型在软件工程中优势高度匹配大多数工程师工作 如用不熟悉语言写代码 但架构类问题也开始擅长[39] 安全与可靠性 - 从深度防御角度思考代理稳健性 采用指令层级技术防止恶意攻击[28] - 模型规范让外界清晰了解对模型预期 规范与实际行为差距不断缩小[29] - 随着代理被赋予更多责任 安全性和可靠性必须同步提升[29] 定价与成本 - GPT-5定价有竞争力 甚至比Gemini更低[34] - 定价历史持续降价 每年降10倍甚至更激进 如GPT-3降价80%后使用量增长使收入持平或上升[34] - 当前瓶颈主要是计算资源 依赖算力 但还有很大效率提升空间[35] 未来方向与研究 - 研究领域多样性出乎意料 不同实验室有不同视角和聚焦点[43] - OpenAI关注如何通过研究实现阶跃式突破和范式转变 如推理范式突破[44] - 多模态 生成方式等方面多样性让研究比以往更丰富[44]