推理范式

搜索文档
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 12:40
图片来源: Latent Space Z Hightlights Greg Brockman 是 OpenAI 的联合创始人兼总裁,曾任 Stripe 前 CTO ,致力于推动人工智能技术的发展和普及。本次访谈由 Latent Space 在 2025 年 8 月发 起,深入探讨 GPT-5 与开源项目 GPT-OSS 的最新进展,及 OpenAI 实现通用人工智能的战略路径。 OpenAI 推理能力演进之路 SWYX: 祝贺你们发布了 GPT-5 和 GPT-OSS , OpenAI 领域的所有新进展都令人惊叹。我们稍后会详细探讨这些内容。非常高兴你能来到现场。上周这 一连串的版本发布如同风暴般席卷而来,你此刻的感受如何? Greg Brockman : 太疯狂了,一周内推出这么多成果确实非常疯狂。我们发布了开源模型,这些是我们长期研发的成果。我认为它们真正将 OpenAI 取得 的多项技术进展浓缩到非常精巧的形态中,更易于使用 —— 要知道过去几天其下载量已达数百万次。我们还发布了 GPT-5 ,这同样是我们深耕已久的项 目。看到这些成果面世并成功完成整个发布流程,我真心为团队感到骄傲。 Alessio ...
GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够
AI前线· 2025-09-04 14:30
GPT-5企业市场表现 - GPT-5目标用户为企业市场而非普通消费者[2] - 多家初创公司如Cursor、Vercel和Factory已将GPT-5设为默认模型 因其设置速度更快 复杂任务表现更出色且价格更低廉[2] - 在代码和界面设计领域 GPT-5已能与Anthropic的Claude相匹敌甚至实现超越[2] 企业客户反馈与测试 - Box针对长篇逻辑性文档测试GPT-5 其CEO称该模型推理能力是以往系统无法比拟的突破[3] - JetBrains将GPT-5设为AI Assistant和Kineto的默认语言 因其能快速生成单一用途工具[3] - Factory与OpenAI合作将GPT-5设为默认工具语言 其CEO指出GPT-5在制定复杂编码解决方案计划方面表现更好 长期计划连贯性更优[3] - Lovable公司对GPT-5 Beta测试非常满意 发现其在复杂用例中更强大智能 且更易采取行动并反思[4] 技术发展与模型能力 - GPT-5代表几乎难以形容的智能 能在IMO数学竞赛中写出顶尖人类水平证明 这是前所未有的突破[22] - 模型从纯文本GPT-3 多模态GPT-4发展到GPT-5时代核心特征为与AI合作的科研模式 加速人类研究进展[22][23] - 在强化学习范式下 模型通过尝试和反馈学习 人类设计任务价值极高但需要成比例投入更多算力[12] - 从GPT-4发布至今 同等智能水平成本已降低1000倍 仅用两年半时间[35] 算力与扩展 - 模型发展瓶颈永远是算力 只要有足够算力就能找到方法迭代并充分利用[12] - 算力可分配到不同维度 如让模型更大 投入更多预训练算力或更多推向强化学习[13] - 算力是从能量变成算力再变成智能的结晶化过程 训练时投入大量算力但可无数次复用摊薄成本[14] 模型应用与泛化 - GPT-5在需要深度智能的复杂问题上表现比任何其他测试模型都好[24] - 模型已能泛化到不同领域 如IMO模型也能在IOI中获得金牌 无需专门训练[14] - 在生物学领域 训练400亿参数模型处理DNA序列 效果相当于GPT-1到GPT-2之间 但需解决长上下文挑战[19] 开发与工程实践 - 开发者需积累提示词库 测试模型优势和短板 并思考如何拆分任务让模型处理自包含子任务[25] - 代码库应围绕模型优劣构建 更独立单元 快速运行单元测试和清晰文档[41] - 模型在软件工程中优势高度匹配大多数工程师工作 如用不熟悉语言写代码 但架构类问题也开始擅长[39] 安全与可靠性 - 从深度防御角度思考代理稳健性 采用指令层级技术防止恶意攻击[28] - 模型规范让外界清晰了解对模型预期 规范与实际行为差距不断缩小[29] - 随着代理被赋予更多责任 安全性和可靠性必须同步提升[29] 定价与成本 - GPT-5定价有竞争力 甚至比Gemini更低[34] - 定价历史持续降价 每年降10倍甚至更激进 如GPT-3降价80%后使用量增长使收入持平或上升[34] - 当前瓶颈主要是计算资源 依赖算力 但还有很大效率提升空间[35] 未来方向与研究 - 研究领域多样性出乎意料 不同实验室有不同视角和聚焦点[43] - OpenAI关注如何通过研究实现阶跃式突破和范式转变 如推理范式突破[44] - 多模态 生成方式等方面多样性让研究比以往更丰富[44]
GPT-5首次会推理,OpenAI联创曝AGI秘诀,超临界学习吞噬算力,2045金钱无用?
36氪· 2025-08-18 07:50
GPT-5技术突破 - GPT-5是OpenAI首个混合模型,通过路由器在推理模型与非推理模型间自动切换,降低使用复杂度[3] - 模型在数学、编程、物理等高智力任务上表现质变,能写出与国际奥林匹克竞赛(IMO/IOI)优秀人类相当的证明[3][5] - 物理学家反馈GPT-5的推理过程可重现数月研究成果,表明其已成为科研合作者而非单纯辅助工具[7] 技术范式转变 - 从GPT-4的"预训练+推理"转向"推理-反馈-强化学习"动态模式,这是实现可靠AGI的唯一途径[3][7] - 模型从静态训练迈向动态推理,通过"测试想法-获得反馈-强化学习"循环缩小与AGI差距[7] - 未来模型不再是"一次训练+无限推理",而是边用边学的"推理+基于推理数据的再训练"模式[3][8] 超临界学习与算力需求 - 算力增加10倍至10000倍时将触发超临界学习,模型不仅能掌握任务还能推导二阶、三阶效应[8][10] - 算力是唯一稀缺资源,OpenAI正在建造"星际之门"超级集群以扩张基础设施[19][20][21] - 算力被比作能量:预训练将算力转化为潜在智力,推理将智力释放为动能[20] 工程实践与开发策略 - 开发者需构建AI友好型代码库(模块清晰、单元测试完整、文档详尽)并拆解任务由多智能体并行完成[13] - 需积累Prompt库探索模型边界,但Prompt非唯一正确答案而是发挥创造性的测试[13][14] - 模型应视为开发团队而非单一工具,可远程异步工作或实时协作,且能无限复制[14][15] 行业应用与未来展望 - AI在生物领域已实现DNA建模达到GPT-2水平,人类语言与生物语言对神经网络无本质区别[10] - 2045年可能进入物质丰饶时代,AI生成一切或使金钱失去意义,算力将成为新稀缺资源[24][26] - 医疗、教育等行业存在大量"未被采摘的果实",AI应用空间无比广阔[24]
深度|OpenAI 多智能体负责人:许多人正在构建的产品并未真正遵循Scaling Law,最终都会被所取代
Z Potentials· 2025-07-20 10:48
多智能体与游戏AI研究 - OpenAI开发的Cicero系统在《Diplomacy》游戏中达到人类玩家前10%水平,并通过AI反哺训练使开发者Noam Brown成为2025年世界冠军[3][4] - Cicero采用27亿参数的小型语言模型,开发过程中发现更大模型能显著提升性能[8] - 多智能体研究不仅关注博弈策略,更探索如何扩展模型推理时间至数小时甚至数天以解决复杂问题[55] AI推理范式演进 - 测试时计算成为下一代AI核心能力,模型思考时间从15分钟向更长周期扩展带来数量级性能提升[32][34] - 系统一(直觉)与系统二(推理)能力需协同发展,模型规模扩大后推理性能呈现涌现特性[15][16] - OpenAI通过o系列模型验证推理范式,o3已具备网页浏览和深度研究能力,性能持续迭代[11][26] 数据效率与算法改进 - 当前AI数据效率显著低于人类,算法改进是提高数据利用率的关键方向[38][39] - 强化学习微调(RFT)可针对性优化模型,收集的数据对未来模型迭代仍具价值[30] - 预训练模型需结合中训练和后训练才能实用化,纯预训练模型表现欠佳[88][90] 行业竞争与技术路线 - 自对弈在两人零和游戏(如围棋)中有效,但在多人非零和场景面临目标函数设计挑战[66][69] - 模型路由等辅助结构可能被扩展范式取代,开发者需警惕技术快速迭代带来的架构淘汰风险[26][28] - OpenAI采用集中资源进行大规模实验的策略,区别于传统实验室的小型分散研究模式[40][41] 应用场景与商业化 - Codex编程助手可独立完成代码提交,未来将覆盖从问题提出到PR审核的全流程[43][51] - 虚拟助手成为继软件开发后的重点应用领域,AI对齐需求使其可能超越人类表现[52] - 生成式媒体(Sora)与推理模型形成技术矩阵,推动商业订阅增长[71] 前沿研究方向 - 显式建模其他智能体的必要性存疑,大规模模型可能自发形成心理理论能力[64] - 万智牌等超复杂不完美信息游戏暴露现有AI方法的局限性,状态空间爆炸问题待解[99][100] - 生物模拟器开发被视为突破药物研发瓶颈的关键路径,需跨学科协作[86]