Online Diffusion Policy RL Algorithms (Online DPRL)
搜索文档
为什么扩散策略在操作任务上表现良好,很难与在线RL结合?
具身智能之心· 2026-01-21 08:33
文章核心观点 - 一篇韩国团队的综述论文首次系统梳理了在线扩散策略强化学习的研究现状,构建了统一的算法分类与基准测试体系,为规模化机器人控制提供了新的理论框架与实践指南 [1] - 该综述通过“算法分类 - 实证分析 - 应用指导”的逻辑,揭示了不同算法的核心权衡,并提出了清晰的技术路线图,旨在推动扩散策略从实验室走向真实世界的规模化应用 [1][30] 问题根源与核心挑战 - **训练目标冲突**:扩散模型的去噪训练目标与在线强化学习的策略优化机制存在本质不兼容,难以直接复用传统强化学习的梯度更新逻辑 [4][5] - **计算与梯度难题**:扩散模型的多步反向去噪过程需通过长链反向传播计算梯度,计算成本极高,且易引发梯度消失或爆炸问题 [5] - **泛化与鲁棒性不足**:离线扩散策略受限于固定数据集,无法自主探索新动作;而在线学习需兼顾环境适应性与跨机器人形态迁移能力,现有方法难以平衡 [5] 四大家族算法体系 - **动作梯度类方法**:通过动作梯度直接优化策略,规避扩散链反向传播的复杂度,代表算法包括DIPO、DDiffPG、QSM,其关键优势为计算效率高,适合资源受限场景 [7][9] - **Q加权类方法**:通过Q值加权调制扩散损失,引导策略向高回报区域收敛,代表算法包括QVPO、DPMD、SDAC,其关键优势是保留扩散模型的多模态表达能力 [7][10] - **近邻类方法**:借鉴PPO等近邻策略优化思路,解决扩散策略对数似然难以计算的问题,代表算法包括GenPO、FPO,其关键优势是在大规模并行环境中性能突出,收敛稳定性强 [7][11] - **时序反向传播类方法**:通过端到端反向传播遍历完整扩散过程,代表算法包括DACER、DACERv2、DIME、CPQL,理论上能充分利用扩散过程的时序信息,但扩展性差,计算成本随扩散步骤增加呈指数增长 [7][12] 五大维度实证分析 - **任务多样性**:在涵盖12个机器人任务的统一基准测试中,GenPO在6/12任务中排名第一,峰值性能突出;DIPO在离线策略中表现最优,平均排名为3.58 [13][15][16] - **并行化能力**:GenPO、PPO等在线策略在1024个并行环境下性能显著提升,但在8个环境的受限场景中性能暴跌95%以上;DIPO等离线策略对并行化规模不敏感,鲁棒性更强 [18][19] - **扩散步骤扩展性**:动作梯度类、Q加权类方法随扩散步数K值增加性能提升;BPTT类方法在K>20后性能急剧下降,梯度不稳定问题凸显 [21] - **跨机器人形态泛化**:测试从源机器人到目标机器人的零样本迁移能力,发现离线策略迁移鲁棒性更强,在线策略在机器人硬件差异较大时易出现稳定性崩溃 [23][25] - **分布外环境鲁棒性**:评估在未见过的地形中的适应能力,发现GenPO在部分场景中表现优异,但存在过度拟合源环境的风险,易出现冒险行为 [27][25] 核心结论与应用指南 - **算法选择原则**:大规模并行仿真场景优先选择GenPO等近邻类方法;真实机器人、资源受限场景优先选择DIPO等动作梯度类方法;高精度长时程任务选择动作梯度类或Q加权类方法 [31] - **未来研究方向**:包括动作块与轨迹规划、安全强化学习融合、多智能体在线扩散策略强化学习、逆强化学习整合以及分层强化学习架构等 [31]