post - training - 财报，业绩电话会，研报，新闻

post - training

搜索文档

OpenAI 研究员 Noam Brown：Mid-training 是新的 pre-training

海外独角兽· 2025-07-02 19:03

AI推理能力的发展与演进核心观点 - AI行业进入新范式，推理能力成为智能下半场的关键驱动力，模型从表层关联跃升至复杂认知[4] - 推理是涌现能力，需pre-training达到阈值后才有效，小模型无法受益[11] - 未来数据将比算力更稀缺，强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明"，规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维：系统一为直觉快速反应，系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效，大模型才能展现推理增益，类似大脑皮层进化[11] - 多模态任务中，空间推理/多步整合需系统二，图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能，需通用推理范式[20] - OpenAI内部曾分歧，领导层前瞻性押注推理与强化学习，放弃部分其他方向投入[21] - 决策关键：2016年押注scaling，2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念，模型需上百样本，强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低，人类能快速识别对手漏洞（剥削性策略）[26] - Diplomacy项目突破：AI需建模玩家行为动态调整，非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间，通过RLHF等干预模型内部表征[40] - 三阶段流程：pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差，mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升：思考时间从分钟延长至周，需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制：串行实验流程拖累研发效率，药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争，类比人类文明积累知识[44] - 反对人工启发式规则，主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限：非零和博弈缺乏明确目标，万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发，模型独立完成PR生成[52][53] - 当前缺陷：无法积累任务经验，PR评审仍依赖人工，环境配置自动化待突破[54] - Sora多模态进展迅速，但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域，Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐：Cicero案例显示可控推理系统可提升安全性[34][35] 注：所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践，涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]