TRL仓库原生的DPO Trainer - 财报，业绩电话会，研报，新闻

TRL仓库原生的DPO Trainer

搜索文档

自动驾驶之心· 2025-10-20 07:32

文章核心观点 - 强化学习在视觉语言模型上能带来显著性能提升，部分基准测试取得同规模模型1-2个点的整体涨幅，最高单项涨幅达8-10个点[2] - 强化学习的本质是提高采样效率，而非让基础模型学习新知识，其关键在于一套完整流程而非单一数据[7][8] - 实现有效强化学习需注重数据基础、算法选择和实验细节，通过做好多件小事而非追求单一突破来达成目标[2] 强化学习目标 - 在监督微调模型版本上取得1-2个点的整体性能提升[5] - 在特定基准测试上取得超过1-2点的涨幅，如数学、指令遵循、幻觉避免等领域[5] 强化学习整体思路 - 强化学习必须基于基础模型采样，使用其他模型回复作为好坏答案或试图用一份数据更新所有模型可能无法奏效[8] - 与监督微调后训练相比，监督微调最高可实现5-6个点的涨幅，而强化学习版本整体涨幅在1-2点左右[8] 视觉语言模型强化学习难点 - 算法层面需选择高效、上限高的强化学习算法，考验工程师判断能力[10] - 训练层面基础设施要求高，需对原始模型进行多次前向传播，训练效率挑战大[13] - 数据层面输入混合平衡要求高，不同任务数据比例需平衡，输出回复长度与算法相关度较高[13] 技术选型与实践 - 选择基础设施成本较低的DPO强化学习算法进行快速验证，该算法为离线策略算法[11] - DPO算法优点包括数据可离线生成、奖励评分可用多种模型实现、无需引入在线奖励模型[14] - DPO算法缺点在于训练后期数据无法反映模型效果，训练上限不如在线策略强化学习高[14] 数据组织策略 - 提示库构建需避免回复过短的提示，针对数学推理类任务构造能引导思维链回复的提示格式[15][19] - 数据混合需让不同任务数据比例平衡，实现所有指标同步提升而非有升有降[15] - 回复生成需满足差异较大且有明确对错的要求，确保接受和拒绝回复有明确好坏区分[16][20] 实验过程关键发现 - 直接使用真实答案作为接受回复或固定模型结果作为接受回复会导致训练快速饱和，无法提高采样效率[27] - 训练动态中奖励准确度不断增长往往意味着更好训练效果，但该值与基准测试无直接关联[28] - 回复过短会导致DPO训练崩溃，尽管准确度能直接反映正确比例，但训练效果会变差[28] 结论与展望 - 视觉语言模型强化学习在数据提示混合、数据生成和配对数据构建几个关键环节做对后一定能带来性能提升[24] - 后续将投入视觉语言模型的在线强化学习训练，面临更多未知挑战[24]