刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
36氪·2025-10-28 10:00
刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 值得注意的是,在这篇新博客中,TML 明确表示这项新成果受到了 Qwen 团队研究的启发,并且其实验过程中也大量用到了 Qwen3 系列模型。事实上, 在原英文博客中,「Qwen」这个关键词一共出现了 38 次之多!比小米 17 系列发布会雷总提到「苹果」的 37 次还多一次。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手 时,TML 发现在策略蒸馏可以极低的成本超越其他方法。 该公司 CEO Mira Murati 表示,这种方法可用于小模型,使其具备强大的领域性能和持续学习能力。 作为一家明星创业公司,TML 的更新也吸引了广泛关注。有人总结其优势: 更是有网友盛赞,TML 才是真 Open AI。 博客地址:https://thinkingmachines.ai/blog/on-policy-distillation/ 这篇博客的主要作者是 ...