Workflow
PPO
icon
搜索文档
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]