DPO - 财报，业绩电话会，研报，新闻

DPO

搜索文档

自动驾驶之心· 2025-07-03 20:41

2025年VLA领域RL算法发展综述核心观点 - VLA领域RL算法在2025年5月迎来技术爆发，传统算法（PPO、GRPO、DPO）被迁移至VLA场景，并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式（监督预训练+在线RL微调），结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法，提出双阶段训练：监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务，消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制，轨迹级奖励设计包含三部分：成功奖励（1/0）、自我奖励（轨迹生成概率对数）、外部奖励（VLM+GPT-4o生成的动态cost函数） [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO（留一法优势估计）与PPO，解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新，多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程，设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化：GPU负载均衡矢量化环境、分布式训练框架（PyTorch FSDP）、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法，但需探索新算法适配VLA特性（如LOOP） [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

大模型强化学习，相比PPO，DPO 还是个弟弟？

自动驾驶之心· 2025-06-22 22:09

DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置，但顶级闭源模型如GPT4和Claude仍采用PPO方案，引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题，即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集，DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO，如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率，而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率，导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差，如Helpfulness为-4.19，Harmfulness为-0.97，Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能，但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA，如Code Llama 34B模型在测试集上达到22.4%通过率，显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上，Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号，无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果，而PPO刷新了该领域的最高水平[13]