监督微调
搜索文档
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
36氪· 2025-10-28 10:00
文章核心观点 - Thinking Machines Lab (TML) 发布了一项名为“在策略蒸馏”的新训练方法,该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 该方法能以极低的成本超越其他训练方法,尤其适用于小模型,可使其具备强大的领域性能和持续学习能力 [1][17] - TML明确表示其新成果受到Qwen团队研究的启发,并在实验过程中大量使用了Qwen3系列模型 [3] 技术方法概述 - 在策略蒸馏的核心思想是从学生模型中采样轨迹,并使用高性能教师模型为每个轨迹的每一个token评分,从而结合在策略训练的优势和密集奖励信号 [15] - 该方法使用反向KL散度作为损失函数,促使学生在自身所处的每种状态下近似教师行为,且该奖励是“不可破解的”和“寻找众数”的 [19][20] - 实现过程包括初始化教师客户端、从学生模型采样轨迹、计算教师模型对采样token的对数概率以计算反向KL奖励,并利用强化学习的训练框架进行模型更新 [25][26][27][28] 性能与成本优势 - 在数学推理任务上,从40万SFT检查点开始,在策略蒸馏仅用约150步就在AIME'24基准上达到70%的分数,而离策略蒸馏估计需要200万个提示才能达到相似性能 [32][35] - 与强化学习相比,在策略蒸馏以十分之一的成本在AIME'24上取得了74.4%的更高分数,而强化学习需要17,920个GPU小时才达到67.6% [34] - 在计算效率上,当SFT数据集是现成或可摊销时,在策略蒸馏比基线成本降低9倍;若无现成数据集,总成本可降低约30倍 [40][41] - 从相同初始化开始,在策略蒸馏学习强化学习训练策略所需的梯度步数少7-10倍,对应50-100倍的计算效率提升 [58] 应用案例:数学推理 - 使用Qwen3-8B-Base作为学生模型,Qwen3-32B作为教师模型进行在策略蒸馏,在AIME'24数学基准上取得显著提升 [30][34][35] - 仅使用单个提示连续训练20步,在策略蒸馏也能达到与教师模型相当的性能,展示了极高的数据重用效率 [61] 应用案例:个性化与持续学习 - 在公司内部助手训练中,中训练新知识会降低模型原有的指令遵循能力,混入30%聊天数据仍无法维持IF-eval上的原始性能 [45][47] - 在策略蒸馏能有效恢复指令遵循能力,在对内部文档微调后,几乎完全恢复IF-eval性能至83%,且未损失知识,内部QA评估分数从36%提升至41% [53][54] - 该方法适用于持续学习,可交替进行“在新数据上微调”和“蒸馏以恢复行为”的阶段,使模型能持续学习并保持知识最新状态 [53][66] 方法比较与行业意义 - 后训练方法主要包括离策略蒸馏、强化学习以及在策略蒸馏,三者在采样方式和奖励信号密度上存在差异 [18] - 在策略蒸馏结合了在策略训练的可靠性能和密集奖励信号的成本效益,是达到前沿模型能力的关键部分 [70] - 该方法为从业者提供了一种廉价而强大的工具,用于训练具备专家级性能的小型模型,并支持持续学习和个性化 [17][70]
Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
量子位· 2025-10-28 09:18
文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 11:40
项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
量子位· 2025-10-14 10:19
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目,旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时,复刻基础对话功能的模型 [4] - 整个代码库约8000行,基于Rust语言实现,包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构,在FineWeb-EDU数据集上预训练,使用自定义分词器(词汇量65,536)实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练(BASE)、中期训练(MID)、监督微调(SFT)和强化学习(RL)四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用(如Python解释器),提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219,超越GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [7][41] - 经过中期训练和监督微调后,模型在多项基准测试中提升:ARC-Easy从0.3561升至0.3876,GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能进一步提升至0.0758,总训练耗时3小时51分钟,成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架,用户可通过修改深度参数(如depth=30)探索更大模型,预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性,已获GitHub 4.8k星关注,被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容,推动AI教育普及 [12][75]