post - training
搜索文档
 OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
 海外独角兽· 2025-07-02 19:03
 AI推理能力的发展与演进    核心观点   - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4]   - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11]   - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25]   - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46]     推理能力的本质与演进    01 推理是涌现出来的能力   - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8]   - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11]   - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12]     02 超级智能的推理范式   - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20]   - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21]   - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23]     数据效率与训练方法革新    03 RL高效数据利用   - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25]   - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26]   - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31]     06 Mid-training新范式   - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40]   - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42]   - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42]     技术瓶颈与未来方向    05 Test-time compute瓶颈   - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36]   - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39]     07 Multi-agent与文明演化   - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44]   - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46]   - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50]     AI应用实践与挑战    Noam的AI编程实践   - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53]   - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54]   - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53]     非共识观点与对齐    04 推理能力边界拓展   - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33]   - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35]    注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]