Now, Scaling What?

Scaling What的阶段性探索 - 自2024年起Scaling范式发生转移，预训练环节的Scaling Law边际效益递减且文本数据受限，行业开始探索「Scaling What」的新目标[3] - 业界对「预训练Scaling Law收益递减」达成共识，OpenAI、Anthropic等团队仍保持乐观但转向寻找正确的Scaling对象[4] - 新研究方向包括Densing Law、「50%任务完成时间」等替代性评估指标，以及Self-Play RL+LLM、Post-Training Scaling Law等技术路线[4] 推理阶段计算优化（TTS）的兴起 - 谷歌DeepMind 2024年8月首次提出通过增加推理时计算提升模型输出质量，OpenAI o1模型和DeepSeek-R1的GRPO技术进一步验证该方向[4][5] - 2025年5月学术综述将此类技术统称为TTS（Test-Time Scaling），提出What-How-Where-How Well四轴分类框架，显示研究重点从预训练转向推理优化[6] - TTS应用范围从数学推理扩展到开放式问答，方法从重复采样演进为混合扩展和内部扩展策略[6][7] 四大Scaling技术路线 - Parallel Scaling：通过并行生成多个输出并聚合答案，依赖覆盖度和聚合质量，实现方式包括多模型采样和输入调整[9] - Sequential Scaling：模拟人类系统2思维，通过逐步更新中间状态分步骤解决问题[9] - Hybrid Scaling：结合并行生成与序贯筛选，先迭代候选解再通过选择函数聚合[9] - Internal Scaling：模型自主分配推理计算资源，如OpenAI-o1模仿人类长推理链[10] 后训练技术的范式重构 - 传统观点认为预训练奠定基础能力，微调（指令微调/SFT/RLHF）负责领域适应[11] - 当前趋势显示微调与推理优化（TTS）在后训练阶段具有同等重要性，共同塑造模型最终性能[6][11] 注：原文中未提供具体财务数据或公司运营细节，故未包含相关分析