强化学习（RL） - 财报，业绩电话会，研报，新闻

强化学习（RL）

搜索文档

GPT-5 核心成员详解 RL：Pre-training 只有和 RL 结合才能走向 AGI

海外独角兽· 2025-10-18 20:03

文章核心观点 - 强化学习与预训练的结合是当前AI发展的核心路径，两者相互依存，共同推动模型能力的提升[16][50] - 推理能力是AI发展的关键里程碑，其本质是模型寻找未知答案的思考过程，而不仅仅是简单的搜索[7][9] - 公司通过持续迭代其模型架构和训练方法，实现了从技术展示到实用产品的跨越，并确立了在行业中的领先地位[13][15][62] 强化学习与预训练的结合 - 预训练是基础，为强化学习提供必要的知识基础，没有预训练，强化学习难以奏效[16][22] - 强化学习必须建立在强大的预训练之上，而预训练同样需要强化学习的强化与闭环才能成功[3][50] - 公司自2019年就确立了“在大量数据上训练大型生成模型，然后进行强化学习”的战略路线，并延续至今[17] - 强化学习被比喻为训练狗的过程，通过奖励期望行为和惩罚不期望行为来优化模型策略[19][20] - 与相对标准化的预训练相比，强化学习更为复杂和精细，涉及更多动态组件，大规模扩展时挑战更大[33] 推理模型的技术演进 - 推理被定义为“找到一个未知答案的过程”，这比简单的“回答问题”需要更长的时间和更复杂的工作[7][9] - 思维链是模型将内部思考过程以人类语言和概念表达出来的能力，本质上是文字编码的思考过程[10][11] - 公司在推理模型的开发上遵循逐步扩展的训练实验路径，从展示能力的o1模型，到真正有用的o3模型，再到被视为o3迭代的GPT-5模型[13][15] - 模型思考时间的权衡由用户体验驱动，公司在产品层面提供不同模式让用户在输出质量和等待时间之间进行选择[12] - 编程能力是推理模型能力的一个自然副产品，研究人员常用编程问题测试新想法，使模型在该领域表现突出[43] 行业竞争与开源影响 - 公司在发布o1模型后，对许多研究实验室产生了意外冲击，而开源模型如DeepSeek的GRPO算法为其他实验室提供了快速跟进的操作说明书[30][32] - 数据标注行业必须不断自我更新，因为AI能力快速提升，几个月前需要人工标注的任务可能很快就能由AI自动完成[27] - 行业内的研究组织方式趋向于集中资源推进少数核心项目，而非进行大量分散的小赌注，以确保研究深度和效率[60] 智能体与未来发展方向 - 智能体系统的核心是让模型能够长时间自主思考，与更多系统和信息源交互，以完成复杂的长任务清单[34][35] - 目前大多数针对语言模型的强化学习仍是在线训练，但在与真实用户隔离的环境中进行，实时在线学习因安全考虑尚未大规模应用[36][38] - 对齐问题在某种程度上被视为一个强化学习问题，需要通过引导模型产生特定行为来实现，但这是一个持续演变的挑战[38][39] - 通向AGI的终极问题在于模型何时能在不依赖大量外部干预和人类修正的情况下实现自我改进[47] - 未来的发展路径更可能是在现有体系上持续叠加新方法，逐步淘汰旧元素，而非彻底推翻重来的转向[52]