Workflow
自举学习
icon
搜索文档
7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
量子位· 2025-03-07 15:12
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 见识过32B的QwQ追平671的DeepSeek R1后—— 刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事? 新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。 使Deepseek-R1蒸馏的Qwen2.5 7B模型在 麻省理工学院积分大赛 ( MIT Integration Bee )上达到90分超越o1。 注意,不是积分制的比赛哦,是只做 微积分中积分题 的比赛,MIT的数学高手每年都会挑战一次,题目像这样: $\lambda(0)$-$\frac{1}{2}$\(\lambda(0)\ LADDER论文来自小型独立研究团体 Tufa Labs ,论文已上传到arXiv。 在推理时间强化学习 LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即"通过自主难度驱动的样本递归进行学习"。 这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自 ...