Workflow
DPO
icon
搜索文档
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐
机器之心· 2026-02-11 11:00
研究背景与意义 - 在大模型后训练阶段,DPO已成为业界主流对齐方法,但其缺陷逐渐显现[2] - 主流方法面临两大核心难题:一是序列级的“二元对立”陷阱,粗粒度优化掩盖了高质量回复中的瑕疵Token,导致微调效果差甚至引发采样分布偏移[5];二是被偏差绑架的“伪”重要性,现有Token级评估方法易继承模型固有的“U型注意力偏差”,过度关注首尾而忽略中间核心语义[7] TI-DPO的核心机制 - 核心思想是为不同Token赋予不同权重,通过混合加权机制和三元组损失,精准识别并放大“关键Token”信号,同时抑制噪声,实现比传统DPO更准、更稳的对齐效果[9] - 混合加权机制结合了数据驱动与先验结构,通过计算Loss对每个Token Embedding的梯度范数来确定其对最终输出的贡献度作为权重,并引入高斯分布先验来对抗LLM常见的“U型注意力偏差”,强制模型关注中间语义核心[9][15] - 引入三元组损失,构建锚点(当前生成的中间回复)、正例(人类偏好的高质量回答)和负例(人类拒绝的低质量回答),优化目标是在语义空间中让生成的回复远离坏回答并贴近好回答[10][16] - 最终优化目标是混合加权损失与三元组损失的加权和[11] 实验结果 - 研究团队在Llama-3 (8B/3B)和Mistral-7B等多个主流基座模型上测试,对比了包括DPO、SimPO、GRPO等10多种对齐算法[13] - 综合能力评估显示,在Llama-3.1-8B-Instruct基座上,TI-DPO的综合平均分达到62.3,超过GRPO的62.1和DPO的60.8[14] - 在指令遵循、真实性和代码生成等细分任务上,TI-DPO的表现大幅超越了DPO、SimPO以及GRPO[17] - 消融实验表明,TI-DPO的所有核心组件(混合加权机制、高斯先验和三元组损失)对模型性能都至关重要,移除任意模块均会导致通用能力、数学推理及代码生成等各项指标显著下降[20] - 具体消融实验数据:完整TI-DPO方法在通用能力得分为65.4,数学80.7,推理34.6,代码33.0,指令遵循63.5,可靠性86.8;移除三元组损失后各项得分下降;使用均匀权重或随机权重也导致性能下降;移除高斯先验或使用Softmax先验同样使性能劣于完整方法[21] 案例与贡献总结 - 通过医疗咨询案例的可视化热力图证明,TI-DPO能精准识别关键Token,例如在优选回复中给“seek medical attention”和“promptly”分配高权重,在非优选回复中精准抓取“painkillers casually”等高风险建议并赋予高权重加以惩罚[22][23][25] - TI-DPO推动大模型对齐从粗放的序列级优化向精细的Token级控制转变,实验结果表明其在指令遵循、真实性与代码生成等任务上相比基线取得了稳定性能提升,验证了提升数据利用“颗粒度”是增强模型能力的有效路径[25] - 该方法为后续RLHF研究提供了新方向,有望推动大模型向着更精准、更可控的方向进化[25]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]