Workflow
LLM 后训练
icon
搜索文档
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 10:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]