Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了

文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法，该方法通过结合在线策略的自主探索与离线策略的密集监督，显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势，训练效率提升高达50-100倍，并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏（在线策略）和请家教（离线策略）两种传统训练模式的优点，如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标，学生模型通过最小化逆向KL散度来模仿教师模型，该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中，使用在线策略蒸馏方法，仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%，计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中，该方法成功解决了灾难性遗忘问题，使模型在内部知识评估得分从36%提升至41%的同时，通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性（效率提升50-100倍）使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型，降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导，其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布，研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]