mid - training

搜索文档
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
两个 编译:haozhen 编辑:siqi 海外独角兽原创编译 转载请注明 去年以来,随着 OpenAI 在 o1 模型中提出 RL 叙事 ,以及 DeepSeek 发布的 R1 模型 解开了 RL 谜 题,AI 行业进入了新范式,智能的下半场也真正开启。 如果说过去 LLM 主要依赖于模式匹配与数据记忆,如今,推理能力的兴起让模型能力从表层关联跃 升到复杂认知。推理不仅仅是参数数量或训练数据的增加,而是能充分利用算力进行深度探索。因 此,推理能力既是涌现智能的重要催化剂,也是未来模型在科学发现、复杂决策与 multi-agent 协作 中的关键。 本篇内容是 OpenAI 研究员 Noam Brown 的最新播客。Noam 是全球最顶尖的推理研究员之一,他最 知名的两个项目分别是在德扑中击败顶尖人类玩家的 AI 系统 Libratus 和 Pluribus,2022 年他又开发 了首个在复杂多人策略游戏 Diplomacy 中达到人类水平的 AI,名为 Cicero。 这次播客中,他详细分享了自己在 scaling test time compute 上的前沿观点: • 推理(reasoning)是模型涌现 ...