稳定训练、数据高效，清华大学提出「流策略」强化学习新方法SAC Flow

文章核心观点 - 提出一种名为SAC Flow的新方案，使用高数据效率的强化学习算法SAC来端到端优化真实的流策略，无需采用替代目标或策略蒸馏 [1] - 核心创新在于将流策略的多步采样过程视为一个残差循环神经网络，并引入GRU门控和Transformer Decoder两套速度参数化方法来稳定训练 [1][8] - 该方法在MuJoCo、OGBench、Robomimic等多个基准测试中实现了极高的数据效率和显著的性能提升，达到SOTA水平 [1] 研究背景与问题 - 流策略因其建模多峰动作分布的表达能力及比扩散策略更简洁的优势，在机器人学习领域热门，并被广泛应用于先进的VLA模型如π_0、GR00T等 [4] - 使用数据高效的off-policy RL算法（如SAC）训练流策略时会出现训练崩溃，原因是流策略的K步采样推理导致反向传播深度等于采样步数K，引发梯度爆炸或消失 [4][7] - 现有工作通过使用替代目标或策略蒸馏来规避此问题，但牺牲了流策略本体的表达能力，未能真正端到端优化流策略 [5] 技术方法：SAC Flow - 将流策略的每一步中间动作视为隐状态，Euler积分过程等价于一个残差RNN的单步前向，从而将流策略的K步采样反传等价于对RNN网络的反传 [10] - 提出两种速度网络参数化方式：Flow-G（GRU门控结构）自适应决定保留当前动作或写入新动作以抑制梯度放大；Flow-T（Transformer Decoder）在全局状态语境下稳态细化动作 [16][17] - 通过添加高斯噪声和配套漂移修正，解决SAC熵正则化中确定性K步采样无法直接给出可积密度的问题，使SAC的损失函数可直接用流策略多步采样的对数似然表示 [14] - 支持两种训练范式：对于密集奖励任务可从头开始训练；对于稀疏奖励任务且拥有示例数据的场景，支持离线预训练后再进行在线微调 [18] 实验结果 - 在MuJoCo的Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup环境中，SAC Flow-T/Flow-G能够稳定快速地收敛，并取得更高的最终回报 [20] - 消融实验表明，SAC Flow-T和Flow-G能有效稳定梯度范数，防止训练崩溃，而直接使用SAC微调流策略则会出现梯度爆炸 [24][26] - 方法对采样步数K具有鲁棒性，在K=4/7/10的条件下均能稳定训练，其中Flow-T对采样深度的鲁棒性尤其强 [27] - 在OGBench的Cube-Triple/Quadruple等高难度任务中，SAC Flow-T收敛更快，整体成功率领先或持平现有off-policy基线（如FQL、QC-FQL） [30] - 相比扩散策略基线（如DIME、QSM），基于流策略的方法普遍收敛更快，而SAC Flow在此基础上性能进一步超越FlowRL [30]