Workflow
7B小模型
icon
搜索文档
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
量子位· 2025-06-24 21:36
核心观点 - Sakana AI推出新方法,要求教师模型像人类教师一样输出清晰的逐步解释,而非从头解决问题[1] - 新方法训练出的7B小模型在传授推理技能方面比671B的DeepSeek-R1更有效[2] - 新方法能训练比自己大3倍的学生模型[3] 方法对比 - 传统方法:教师模型通过昂贵的强化学习训练,需从头解决问题,依赖自身能力[5][6][8] - 新方法:教师模型根据已知解决方案输出逐步解释,奖励标准是对学生模型的帮助程度[9][11][12] 性能表现 - 7B的RLT教师模型训练出的RLT-7B学生模型在AIME 2024 MATH 500 GPQA Diamond Overall得分49.50,优于DeepSeek-R1训练的Bespoke-7B(46.60)[4][17] - 7B的RLT教师模型成功训练32B学生模型RLT-32B,得分73.23,优于DeepSeek-R1训练的Bespoke-32B(71.47)[4][17][18] 效率优势 - 新方法训练32B学生模型仅需单个计算节点一天时间,传统方法需数月[24] - 新方法可与传统RL方法联合使用,提升性能[22][23] 解释质量 - DeepSeek-R1输出依赖外部工具和误导性内容[26] - RLT提供简洁清晰的解释,增加逻辑步骤帮助学生[27][28]