Workflow
PPO
icon
搜索文档
以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用
自动驾驶之心· 2026-01-20 17:03
文章核心观点 - 强化学习是解决端到端自动驾驶中模仿学习无法处理问题(如居中驾驶)的关键技术 [1] - 文章以DiffusionDriveV2为例,深入解读了PPO和GRPO等强化学习算法在自动驾驶轨迹生成中的应用与改进 [2][5][6] 强化学习在自动驾驶中的重要性 - 自动驾驶进入端到端阶段后,需要强化学习来解决模仿学习无法处理的问题,例如车辆居中行驶 [1] - 强化学习是后训练不可或缺的一部分,其热度因大模型发展而提升 [1] 主流强化学习算法:PPO与GRPO - PPO CLIP是最经典的PPO算法,其损失函数通过裁剪策略比例来稳定训练 [2][3] - 在自动驾驶中,对动作的评价是针对整个轨迹的质量,而非单个路径点 [3] - 优势函数A反映了当前决策相对于平均预期奖励的好坏,比单纯使用奖励更稳定,能避免不同场景间奖励方差过大的问题 [4] - GRPO的主要改进在于使用当前策略生成多个轨迹的平均奖励来估计价值函数V,而非使用Critic模型 [4][9] DiffusionDriveV2的强化学习损失函数 - 损失函数由三部分组成:DiffusionDrive的多个锚点设计、GRPO的组设计以及扩散模型的去噪过程 [9] - 锚点设计是DiffusionDrive V1的核心,用于生成多样化的轨迹 [9] - GRPO的组概念被修改,每个锚点拥有独立的组,以避免不同驾驶行为的数据相互压制 [11][12] - 组内优势的计算方式为:某个轨迹的奖励减去组内所有轨迹奖励的均值,再除以组内奖励的标准差 [12] - 引入了锚点间GRPO,对不同锚点的优势进行进一步优化,以避免优化方向坍塌 [13][14] DiffusionDriveV2的其他技术改进 - 轨迹加噪采用横向和纵向分别设定尺度的方法,以确保加噪后的轨迹保持正常 [15] - 新版本终于包含了模型选择器 [15] 当前挑战与未来展望 - 目前量产应用中,强化学习训练多为单步且作用于整个轨迹,因为端到端的闭环仿真在生成效率和质量上尚不足以支撑训练 [3] - 自动驾驶中的强化学习技术远未成熟,单步约束与模仿学习的区别有限,期待未来闭环仿真技术的进步带来更深入的强化学习应用 [15]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]