推理范式 - 财报，业绩电话会，研报，新闻

推理范式

搜索文档

深度｜OpenAI联创：GPT-5的突破在于智能开始触及真正的深度认知领域；理想状态应该是默认使用我们的自动选择，而非手动配置

Z Potentials· 2025-09-06 12:40

文章核心观点 - OpenAI联合创始人Greg Brockman分享GPT-5和GPT-OSS的技术突破及AGI战略路径强调推理能力演进、算力核心地位和模型泛化能力 [3][4][6] - GPT-5实现深度认知突破在数学证明、编程和科研领域达到接近人类专家的智能水平标志AGI发展进入新阶段 [24][25][26] - 强化学习与在线学习范式成为技术核心通过推理-训练循环和现实交互提升模型可靠性推动智能体集群协同发展 [9][10][29] - 算力规模化是技术突破的根本驱动力成本两年半降低1000倍未来算力分配将成社会核心议题 [12][39][59] OpenAI推理能力演进 - GPT-4后期训练发现对话能力但存在可靠性不足和错误答案问题通过强化学习实践提升假设验证能力 [5][6] - 推理技术团队提出10种方案验证最终由Jerry领导团队取得突破依赖卓越基础设施和跨团队协同 [7] - 模型从离线预训练转向在线学习通过token价值强化实现高质量数据生成样本效率远超传统预训练 [8][9] - 人类策划任务产生高杠杆效应 10-100个任务可激发复杂行为下一步将实现实时在线学习 [10] 算力规模化与超临界学习 - 算力是根本瓶颈通过持续突破算力边界推进技术扩展过程蕴含工程实践价值 [11][12] - 算力转化为智能势能通过摊销效应降低单次使用成本形成优美技术范式 [12] - IMO模型能力可迁移至IOI竞赛核心团队仅三人证明通用学习技术解决复杂问题的可迁移性 [14] - 生物学语言与人类语言在神经网络中同构 400亿参数模型已达GPT-2水平需突破长上下文处理 [18][21][22] GPT-5技术特征与应用 - 智能达到深度认知领域能写出媲美人类的数学证明在编程任务中实现无需调整的完美执行 [23][24] - 作为科研合作伙伴加速研究帮助物理学家快速推导洞见改变传统科研范式 [25] - 在竞争性编程平台表现卓越但真实编程环境更复杂需连接智能与现实应用多样性 [26][27] - 通过多实例协同释放潜力用户需培养模型直觉成为智能体集群管理者而非单智能体 [28] 模型优化与安全架构 - 采用指令层级技术建立信任层级类似SQL注入防护通过沙盒隔离和多级防护保证安全性 [30] - Model Spec提供价值对齐框架规范与行为差距持续缩小社区反馈完善争议问题处理 [31] - 架构决策受限于运行时资源混合专家模型优化内存占用和计算消耗体现工程务实性 [43] - 本地与远程模型协同实现隐私架构边缘计算保持基础功能智能分配计算负载 [44] 技术普及与生态建设 - 降价策略激进价格降低80%后用量激增需求曲线陡峭推理效率持续优化 [39] - 开源模型构建技术栈依存关系有利于商业发展和国家战略形成完整生态系统 [46] - 软件工程变革聚焦AI优化架构创建自包含单元和模块组合提升10倍效率 [47][48] - 算力分配成未来核心议题物质需求满足后算力访问权决定问题解决能力 [59] 发展路径与行业展望 - 研究领域存在多样性各实验室持有独特视角 OpenAI专注阶跃式突破和范式转移 [52][53] - 多模态、语音、图像生成相互关联但需聚焦连贯核心问题硬件瓶颈领域进展缓慢 [55] - 模型连接现实应用蕴藏机遇需深入理解行业和建立合作关系而非单纯技术优化 [56] - 技术发展速度使2045年难以想象人类或成多行星物种算力需求持续飙升 [58][59]

Artificial Intelligence

Artificial Intelligence

GPT-5被批过度炒作、性能落后，OpenAI联创揭秘其中原因：我们把它关在 “象牙塔”，和现实世界接触不够

AI前线· 2025-09-04 14:30

GPT-5企业市场表现 - GPT-5目标用户为企业市场而非普通消费者[2] - 多家初创公司如Cursor、Vercel和Factory已将GPT-5设为默认模型因其设置速度更快复杂任务表现更出色且价格更低廉[2] - 在代码和界面设计领域 GPT-5已能与Anthropic的Claude相匹敌甚至实现超越[2] 企业客户反馈与测试 - Box针对长篇逻辑性文档测试GPT-5 其CEO称该模型推理能力是以往系统无法比拟的突破[3] - JetBrains将GPT-5设为AI Assistant和Kineto的默认语言因其能快速生成单一用途工具[3] - Factory与OpenAI合作将GPT-5设为默认工具语言其CEO指出GPT-5在制定复杂编码解决方案计划方面表现更好长期计划连贯性更优[3] - Lovable公司对GPT-5 Beta测试非常满意发现其在复杂用例中更强大智能且更易采取行动并反思[4] 技术发展与模型能力 - GPT-5代表几乎难以形容的智能能在IMO数学竞赛中写出顶尖人类水平证明这是前所未有的突破[22] - 模型从纯文本GPT-3 多模态GPT-4发展到GPT-5时代核心特征为与AI合作的科研模式加速人类研究进展[22][23] - 在强化学习范式下模型通过尝试和反馈学习人类设计任务价值极高但需要成比例投入更多算力[12] - 从GPT-4发布至今同等智能水平成本已降低1000倍仅用两年半时间[35] 算力与扩展 - 模型发展瓶颈永远是算力只要有足够算力就能找到方法迭代并充分利用[12] - 算力可分配到不同维度如让模型更大投入更多预训练算力或更多推向强化学习[13] - 算力是从能量变成算力再变成智能的结晶化过程训练时投入大量算力但可无数次复用摊薄成本[14] 模型应用与泛化 - GPT-5在需要深度智能的复杂问题上表现比任何其他测试模型都好[24] - 模型已能泛化到不同领域如IMO模型也能在IOI中获得金牌无需专门训练[14] - 在生物学领域训练400亿参数模型处理DNA序列效果相当于GPT-1到GPT-2之间但需解决长上下文挑战[19] 开发与工程实践 - 开发者需积累提示词库测试模型优势和短板并思考如何拆分任务让模型处理自包含子任务[25] - 代码库应围绕模型优劣构建更独立单元快速运行单元测试和清晰文档[41] - 模型在软件工程中优势高度匹配大多数工程师工作如用不熟悉语言写代码但架构类问题也开始擅长[39] 安全与可靠性 - 从深度防御角度思考代理稳健性采用指令层级技术防止恶意攻击[28] - 模型规范让外界清晰了解对模型预期规范与实际行为差距不断缩小[29] - 随着代理被赋予更多责任安全性和可靠性必须同步提升[29] 定价与成本 - GPT-5定价有竞争力甚至比Gemini更低[34] - 定价历史持续降价每年降10倍甚至更激进如GPT-3降价80%后使用量增长使收入持平或上升[34] - 当前瓶颈主要是计算资源依赖算力但还有很大效率提升空间[35] 未来方向与研究 - 研究领域多样性出乎意料不同实验室有不同视角和聚焦点[43] - OpenAI关注如何通过研究实现阶跃式突破和范式转变如推理范式突破[44] - 多模态生成方式等方面多样性让研究比以往更丰富[44]

通用人工智能

强化学习

推理范式

Artificial Intelligence

Artificial Intelligence

GPT-5

Claude

GPT-5首次会推理，OpenAI联创曝AGI秘诀，超临界学习吞噬算力，2045金钱无用？

36氪· 2025-08-18 07:50

GPT-5技术突破 - GPT-5是OpenAI首个混合模型，通过路由器在推理模型与非推理模型间自动切换，降低使用复杂度[3] - 模型在数学、编程、物理等高智力任务上表现质变，能写出与国际奥林匹克竞赛（IMO/IOI）优秀人类相当的证明[3][5] - 物理学家反馈GPT-5的推理过程可重现数月研究成果，表明其已成为科研合作者而非单纯辅助工具[7] 技术范式转变 - 从GPT-4的"预训练+推理"转向"推理-反馈-强化学习"动态模式，这是实现可靠AGI的唯一途径[3][7] - 模型从静态训练迈向动态推理，通过"测试想法-获得反馈-强化学习"循环缩小与AGI差距[7] - 未来模型不再是"一次训练+无限推理"，而是边用边学的"推理+基于推理数据的再训练"模式[3][8] 超临界学习与算力需求 - 算力增加10倍至10000倍时将触发超临界学习，模型不仅能掌握任务还能推导二阶、三阶效应[8][10] - 算力是唯一稀缺资源，OpenAI正在建造"星际之门"超级集群以扩张基础设施[19][20][21] - 算力被比作能量：预训练将算力转化为潜在智力，推理将智力释放为动能[20] 工程实践与开发策略 - 开发者需构建AI友好型代码库（模块清晰、单元测试完整、文档详尽）并拆解任务由多智能体并行完成[13] - 需积累Prompt库探索模型边界，但Prompt非唯一正确答案而是发挥创造性的测试[13][14] - 模型应视为开发团队而非单一工具，可远程异步工作或实时协作，且能无限复制[14][15] 行业应用与未来展望 - AI在生物领域已实现DNA建模达到GPT-2水平，人类语言与生物语言对神经网络无本质区别[10] - 2045年可能进入物质丰饶时代，AI生成一切或使金钱失去意义，算力将成为新稀缺资源[24][26] - 医疗、教育等行业存在大量"未被采摘的果实"，AI应用空间无比广阔[24]

深度｜OpenAI 多智能体负责人：许多人正在构建的产品并未真正遵循Scaling Law，最终都会被所取代

Z Potentials· 2025-07-20 10:48

多智能体与游戏AI研究 - OpenAI开发的Cicero系统在《Diplomacy》游戏中达到人类玩家前10%水平，并通过AI反哺训练使开发者Noam Brown成为2025年世界冠军[3][4] - Cicero采用27亿参数的小型语言模型，开发过程中发现更大模型能显著提升性能[8] - 多智能体研究不仅关注博弈策略，更探索如何扩展模型推理时间至数小时甚至数天以解决复杂问题[55] AI推理范式演进 - 测试时计算成为下一代AI核心能力，模型思考时间从15分钟向更长周期扩展带来数量级性能提升[32][34] - 系统一（直觉）与系统二（推理）能力需协同发展，模型规模扩大后推理性能呈现涌现特性[15][16] - OpenAI通过o系列模型验证推理范式，o3已具备网页浏览和深度研究能力，性能持续迭代[11][26] 数据效率与算法改进 - 当前AI数据效率显著低于人类，算法改进是提高数据利用率的关键方向[38][39] - 强化学习微调(RFT)可针对性优化模型，收集的数据对未来模型迭代仍具价值[30] - 预训练模型需结合中训练和后训练才能实用化，纯预训练模型表现欠佳[88][90] 行业竞争与技术路线 - 自对弈在两人零和游戏(如围棋)中有效，但在多人非零和场景面临目标函数设计挑战[66][69] - 模型路由等辅助结构可能被扩展范式取代，开发者需警惕技术快速迭代带来的架构淘汰风险[26][28] - OpenAI采用集中资源进行大规模实验的策略，区别于传统实验室的小型分散研究模式[40][41] 应用场景与商业化 - Codex编程助手可独立完成代码提交，未来将覆盖从问题提出到PR审核的全流程[43][51] - 虚拟助手成为继软件开发后的重点应用领域，AI对齐需求使其可能超越人类表现[52] - 生成式媒体(Sora)与推理模型形成技术矩阵，推动商业订阅增长[71] 前沿研究方向 - 显式建模其他智能体的必要性存疑，大规模模型可能自发形成心理理论能力[64] - 万智牌等超复杂不完美信息游戏暴露现有AI方法的局限性，状态空间爆炸问题待解[99][100] - 生物模拟器开发被视为突破药物研发瓶颈的关键路径，需跨学科协作[86]