Workflow
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow
机器之心·2025-10-18 13:44

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思 想 是把流策略视作一个 residual RNN,再用 GRU 门控和 Transformer Decoder 两套速度参数化。 SAC FLow 在 MuJoCo、OGBench、Robomimic 上达到了极高的 数据效率和显著 SOTA 的性能。 作者来自于 清华大学和 CMU,通讯作者为清华大学教授丁文伯和于超, 致力于强化学习算法和具身智能研究。 研究背景 流策略(Flow-based policy)最近在机器人学习领域十分热门: 它具有建模多峰动作分布的表达能力,且比扩散策略更简洁好用,因此被广泛应用于先进的 VLA 模型, 例如 π_0、GR00T 等。想要跳出数据集的约束,进一步提高流策略的性能,强化学习是一条有效的路, 已经有不少工作尝试用 on-policy 的 RL 算法训练流 策略 ,例如 ReinFlow [1]、 Flow GRPO [2] 等。但当我们使用数据高效的 off-policy RL(例如 SAC )训练流策略时总会 ...