Workflow
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位·2025-06-11 16:07

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI "预测下一个token" ——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院 (MSRA) 联合清华大学、北京大学提出全新预训练范式 RPT (强化预训练) ,首次将强化学习深度融入预训练阶段,让 模型在预测每个token前都能先"动脑推理",并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点 缀的一颗樱桃。 现在RPT要做的就是 用樱桃直接做蛋糕 ,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。 | | Qingxiu Dong* # | | Li Dong* † | | | --- | --- | --- | --- | --- | | Yao Tang1 Tianzhu YeTs | | Yutao Sun18 | Zhifang Sui+ | Furu Weit | | | 1 Microsoft Research | | | | | | + Peking University | | ...