The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

AI发展阶段的划分 - AI发展已进入下半场，从单纯解决问题转向定义问题和评估模型效果 [6][7] - 上半场核心在于训练方法创新，如Transformer、AlexNet、GPT-3等模型突破 [9] - 上半场训练方法论文引用量远超benchmark论文，如Transformer引用16万次vs WMT'14的1300次 [9][11] 强化学习(RL)的突破 - RL获得泛化能力，能同时处理软件工程、创意写作、数学问题等多样化任务 [8] - RL三大要素中，先验知识(priors)重要性超过算法和环境 [13][14][15] - 语言模型pre-training为RL提供了关键先验知识，但直接应用于控制领域效果不佳 [20][21] AI有效配方 - 核心配方包含：大规模语言预训练、算力数据扩展、推理与行动理念 [12] - 语言通过agent reasoning实现泛化，如ReAct框架结合推理与行动 [25][26] - 环境设计重要性凸显，OpenAI曾开发Gym、World of Bits等标准化RL环境 [18][19] 评估方法的转变 - 传统i.i.d评估假设与现实不符，需开发考虑长期记忆和连续任务的评估方式 [30] - 自动评估假设被质疑，真实人机交互评估如Chatbot Arena更具现实意义 [28][30] - 效用问题成为关键，AI需从攻克benchmark转向创造实际经济价值 [28][30] 行业影响与趋势 - 通用配方使渐进式改进价值降低，5%专项优化可能不如30%的通用模型提升 [26][28] - 下半场将催生万亿级公司，通过智能产品化实现商业价值 [30] - 行业需重新思考问题定义，产品经理类技能将更受重视 [7][28]