MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

核心观点 - 微软亚洲研究院联合清华大学和北京大学提出全新预训练范式RPT（强化预训练），将强化学习深度融入预训练阶段，颠覆传统LLM仅通过预测下一个token建立语言能力的机制，推动模型从学习表面token相关性转向理解深层含义[1][3][5] - RPT通过将预训练语料库重构为推理问题集，激励模型生成思维链推理序列后再预测下一个token，并根据前缀匹配奖励（正确预测奖励1，错误为0）更新模型，显著提升预测准确率和推理能力[5][9][12] - 实验表明RPT-14B在多种难度下均实现更高下一个token预测准确率（Easy:45.11 Medium:33.56 Hard:23.75），优于基准模型，并与更大模型R1-Distill-Qwen-32B性能相当，同时在SuperGPQA和MMLU-Pro基准测试零样本评估中表现卓越（SuperGPQA:39.0 MMLU-Pro:71.1）[13][19][20] 技术方法 - RPT采用同策略（on-policy）执行，生成多条包含中间推理步骤和最终预测的思维轨迹，通过前缀匹配奖励验证预测正确性，奖励信号用于鼓励生成准确延续上下文的轨迹[9] - 使用包含4428个竞赛数学问题及答案的OmniMATH数据集，通过计算下一token熵和设定阈值过滤数据，仅保留更难预测的token参与训练[11] - 采用Deepseek-R1-Distill-Qwen-14B作为基础模型，使用GRPO算法和8K训练长度，批大小为256个问题，每个问题采样8个响应[11] 性能表现 - RPT-14B在简单、中等和困难难度上下一个token预测准确率均超过基准模型（标准下一token预测基线R1-Distill-Qwen-14B Easy:41.60 Medium:29.46 Hard:20.43），最高提升幅度达Easy+3.51 Medium+4.10 Hard+3.32[13] - 在跨难度训练计算中表现出清晰幂律缩放（Power-law Scaling），预测准确性随计算增加持续提高且与理论曲线紧密拟合[16] - 在具有可验证答案问题（Skywork-OR1）上，RPT模型经RL微调后推理能力显著增强（RPT-14B Before RL:56.3 After RL:58.3），数据有限时可快速迁移强化推理模式至最终任务[18][19] 行业影响 - OpenAI科学家在GPT-4o中引入部分强化学习运算（o1阶段效果显著），并预计未来某一代模型将完全由RL计算主导，表明强化学习在LLM预训练过程中的应用趋势已获行业巨头认可[27][30] - RPT培养的推理习惯包含高级语义理解和低级文本特征（如假设生成、替代方案考虑及token级细节反思），为提升LLM语言建模能力和复杂推理信号捕捉提供新路径[20][21]