监督微调 - 财报，业绩电话会，研报，新闻

监督微调

搜索文档

自动驾驶之心· 2025-12-25 11:24

文章核心观点 - 理想汽车发布MindGPT-4ov技术报告，提出一套旨在解决通用多模态大模型向垂直领域迁移时面临的核心矛盾（如灾难性遗忘、缺乏系统方法论）的全链路后训练工程方案 [1] 当前多模态模型训练的关键挑战 - **灾难性遗忘与缺乏方法论**：将通用多模态大模型迁移至垂直应用时，注入领域知识会导致原有通用能力退化，且现有方法缺乏涵盖数据、训练到部署的全链路方案 [1] - **资源分配粗放**：传统数据合成方法对所有数据均等处理，忽视信息密度差异，导致高价值数据挖掘不足，低价值数据浪费算力 [2] - **奖励机制单一化**：强化学习阶段传统的Pass@1机制使模型为最大化奖励而收敛到少数安全回复模式，牺牲输出多样性与探索性，削弱泛化能力 [2] - **单模态虚假相关**：模型幻觉常源于过度依赖语言模型先验而非视觉证据，例如在移除图片输入后仍能编造视觉细节，构成事实性错误风险 [2] MindGPT-4ov后训练范式的核心模块 - **数据构建**：基于信息密度评分进行数据合成与双维标签系统 [3] - **监督微调**：采用协同课程监督微调 [3] - **强化学习**：采用混合奖励的多阶段强化学习 [3] - **基础设施**：采用5D并行训练（在3D并行基础上引入序列并行和专家并行），并优化推理过程中的模型适配、流式推理和高并发场景 [3] 数据构建：信息密度评分与双维标签 - **信息密度评分**：利用MLLM对图像从主体多样性、场景空间关系、OCR文本丰富度、世界知识相关性四个维度进行量化评分 [3] - **动态合成策略**：依据IDS分数动态调整生成问答对的数量，高密度图像生成更多QA，低密度图像生成较少QA，以实现资源高效配置 [3] - **双维标签系统**：构建领域+能力的树状标签体系，确保合成数据既覆盖垂直领域知识，又兼顾通用视觉能力（如计数、推理） [4] 监督微调：三阶段协同课程学习 - **阶段一：跨域知识学习**：重点注入垂直领域知识，建立解决特定领域问题的基础 [5] - **阶段二：能力修复**：针对第一阶段可能导致的通用能力下降，使用通用数据集进行针对性恢复训练 [5] - **阶段三：偏好对齐**：使用高质量偏好数据，优化响应格式、减少幻觉，并处理长上下文逻辑 [5] 强化学习：混合奖励机制 - **Pass@k奖励**：在模型生成的k个回答中，只要有正确答案即计算期望奖励，鼓励探索不同推理路径，而非陷入单一模式 [6] - **多样性奖励**：计算候选回答间的语义距离，语义过于相似的正确回答会受到惩罚，语义差异大且正确的回答获得更高奖励 [6] - **长度奖励**：引入软性冗余约束，回答长度超过设定阈值（即使内容正确）会给予负向惩罚，强制输出简洁响应 [6] - **对抗性幻觉数据**：构造移除图像的文本样本，若模型在无图情况下仍生成描述性细节，则视为知识泄漏并予以惩罚，强制基于视觉证据推理 [6] 训练与部署流程及效果 - **标签与数据构建**：专家定义一级标签，利用MLLM扩展生成二级及三级细粒度Topic，形成知识树；对图像进行粗粒度（Top-3）和细粒度（Top-5）Topic匹配，结合IDS分数生成QA对，并通过多模型投票过滤低质数据 [7] - **SFT训练**：执行三阶段课程学习，期间穿插数据准入与拒绝采样机制，动态调整数据配比 [7] - **强化学习阶段**：阶段一在线RL使用GSPO算法，结合Pass@k和多样性奖励，重点提升多模态逻辑推理和STEM能力；阶段二离线RL使用DPO算法，利用人类偏好数据和对抗性幻觉数据，进行领域能力对齐和幻觉抑制 [7] - **推理部署优化**：采用分块预填充和视觉编码缓存策略，在用户输入阶段并行处理图像，以降低首字延迟 [7] - **垂直领域知识掌握**：在涉及理想汽车特定车型的问答中，MindGPT-4ov能准确识别车型设计特征及定位，而基座模型（Qwen3-VL）出现知识缺失或幻觉 [7] - **响应简洁性**：在MathVista等基准测试中，MindGPT-4ov的平均响应长度显著短于对比模型，同时保持了更高的准确率（83.3% vs 80.1%），验证了长度奖励机制的有效性 [8]

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

36氪· 2025-10-28 10:00

文章核心观点 - Thinking Machines Lab (TML) 发布了一项名为“在策略蒸馏”的新训练方法，该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 该方法能以极低的成本超越其他训练方法，尤其适用于小模型，可使其具备强大的领域性能和持续学习能力 [1][17] - TML明确表示其新成果受到Qwen团队研究的启发，并在实验过程中大量使用了Qwen3系列模型 [3] 技术方法概述 - 在策略蒸馏的核心思想是从学生模型中采样轨迹，并使用高性能教师模型为每个轨迹的每一个token评分，从而结合在策略训练的优势和密集奖励信号 [15] - 该方法使用反向KL散度作为损失函数，促使学生在自身所处的每种状态下近似教师行为，且该奖励是“不可破解的”和“寻找众数”的 [19][20] - 实现过程包括初始化教师客户端、从学生模型采样轨迹、计算教师模型对采样token的对数概率以计算反向KL奖励，并利用强化学习的训练框架进行模型更新 [25][26][27][28] 性能与成本优势 - 在数学推理任务上，从40万SFT检查点开始，在策略蒸馏仅用约150步就在AIME'24基准上达到70%的分数，而离策略蒸馏估计需要200万个提示才能达到相似性能 [32][35] - 与强化学习相比，在策略蒸馏以十分之一的成本在AIME'24上取得了74.4%的更高分数，而强化学习需要17,920个GPU小时才达到67.6% [34] - 在计算效率上，当SFT数据集是现成或可摊销时，在策略蒸馏比基线成本降低9倍；若无现成数据集，总成本可降低约30倍 [40][41] - 从相同初始化开始，在策略蒸馏学习强化学习训练策略所需的梯度步数少7-10倍，对应50-100倍的计算效率提升 [58] 应用案例：数学推理 - 使用Qwen3-8B-Base作为学生模型，Qwen3-32B作为教师模型进行在策略蒸馏，在AIME'24数学基准上取得显著提升 [30][34][35] - 仅使用单个提示连续训练20步，在策略蒸馏也能达到与教师模型相当的性能，展示了极高的数据重用效率 [61] 应用案例：个性化与持续学习 - 在公司内部助手训练中，中训练新知识会降低模型原有的指令遵循能力，混入30%聊天数据仍无法维持IF-eval上的原始性能 [45][47] - 在策略蒸馏能有效恢复指令遵循能力，在对内部文档微调后，几乎完全恢复IF-eval性能至83%，且未损失知识，内部QA评估分数从36%提升至41% [53][54] - 该方法适用于持续学习，可交替进行“在新数据上微调”和“蒸馏以恢复行为”的阶段，使模型能持续学习并保持知识最新状态 [53][66] 方法比较与行业意义 - 后训练方法主要包括离策略蒸馏、强化学习以及在策略蒸馏，三者在采样方式和奖励信号密度上存在差异 [18] - 在策略蒸馏结合了在策略训练的可靠性能和密集奖励信号的成本效益，是达到前沿模型能力的关键部分 [70] - 该方法为从业者提供了一种廉价而强大的工具，用于训练具备专家级性能的小型模型，并支持持续学习和个性化 [17][70]

策略蒸馏

强化学习

监督微调

Artificial Intelligence

Artificial Intelligence

Qwen3系列模型

Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了

量子位· 2025-10-28 09:18

文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法，该方法通过结合在线策略的自主探索与离线策略的密集监督，显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势，训练效率提升高达50-100倍，并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏（在线策略）和请家教（离线策略）两种传统训练模式的优点，如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标，学生模型通过最小化逆向KL散度来模仿教师模型，该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中，使用在线策略蒸馏方法，仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%，计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中，该方法成功解决了灾难性遗忘问题，使模型在内部知识评估得分从36%提升至41%的同时，通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性（效率提升50-100倍）使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型，降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导，其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布，研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]

Artificial Intelligence

Artificial Intelligence

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

36氪· 2025-10-14 11:40

项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline，用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码，基于Rust语言实现，可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时，整体成本仅需约100美元，即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型，该数据集被重新打包为简单、完全打乱的分片，总计约24GB [15][16] - 项目训练了自定义分词器，词汇表大小为65,536个tokens，在训练集包含2B字符上训练约1分钟，实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练，在SmolTalk对话数据集和多项选择题数据集上微调，使模型适应对话格式并理解多选题机制，此过程约8分钟 [35][36][37] - 随后进行监督微调（SFT）以提升对话质量，并可选地进行强化学习（RL）训练，针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219，略高于GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [3][32] - 经过中期训练和监督微调后，模型在多项基准测试上表现提升：ARC-Easy从0.3561提升至0.3876，GSM8K从0.0250提升至0.0455，HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后，模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后（算力消耗为GPT-3的千分之一），在MMLU数据集上可达40多分，在ARC-Easy上达70多分，在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写，作者尝试使用AI编程助手但效果不佳，最终产出约8000行代码，旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目，有潜力发展为研究工具框架或基准测试工具，类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注，GitHub Star数飙升至4.8k，被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务（如Lambda GPU Cloud）启动一台8卡H100服务器，每小时成本约24美元，总训练时间约4小时，成本约100美元 [10][53] - 若将成本提升至约1000美元（训练约41.6小时），模型表现显著提升，能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟，总成本约为92.4美元 [53]

大语言模型

强化学习

监督微调

Artificial Intelligence

Artificial Intelligence

nanochat

LLM101n课程

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

量子位· 2025-10-14 10:19

项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目，旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时，复刻基础对话功能的模型 [4] - 整个代码库约8000行，基于Rust语言实现，包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构，在FineWeb-EDU数据集上预训练，使用自定义分词器（词汇量65,536）实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练（BASE）、中期训练（MID）、监督微调（SFT）和强化学习（RL）四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用（如Python解释器），提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219，超越GPT-2 large（0.21）但略低于GPT-2 xl（0.26） [7][41] - 经过中期训练和监督微调后，模型在多项基准测试中提升：ARC-Easy从0.3561升至0.3876，GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化，性能进一步提升至0.0758，总训练耗时3小时51分钟，成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架，用户可通过修改深度参数（如depth=30）探索更大模型，预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性，已获GitHub 4.8k星关注，被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容，推动AI教育普及 [12][75]

大语言模型

强化学习

监督微调

Artificial Intelligence

Artificial Intelligence

nanochat

ChatGPT