港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心·2025-10-23 12:00

文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]