港科大最新！超越人类示范：基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据

文章核心观点 - 提出一种改进的扩散策略优化算法，用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据，以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上，仅使用扩散强化学习生成的数据训练VLA模型，平均成功率可达81.9%，相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案，为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程，其优势在于借助扩散模型的高表达能力探索复杂行为，并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强，也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架，可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估，基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点，相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]