自适应强化流匹配(ARFM)方法
搜索文档
西湖大学最新!ARFM:结合VLA模仿学习与强化学习的优势
具身智能之心· 2025-09-11 10:07
文章核心观点 - 西湖大学团队提出自适应强化流匹配方法,旨在解决现有视觉-语言-动作流模型在复杂任务中动作精度不足的问题 [2] - 该方法通过在损失函数中引入自适应缩放因子,动态平衡强化学习信号与训练稳定性,使模型能更关注高质量数据 [2][6] - 实验证明该方法在泛化能力、抗干扰性、少样本学习及持续学习方面均优于现有基准模型 [6][49] 研究背景与问题 - 基于流匹配的视觉-语言-动作模型在常规场景表现良好,但依赖模仿学习后训练,难以理解数据质量分布特性 [1][4] - 在复杂下游任务中,现有模型动作精度显著下降,离线强化学习方法在流模型上效果不佳,因无法高效指导动作轨迹生成 [1][4] 主要贡献 - 提出自适应强化流匹配方法,填补了视觉-语言-动作流模型高效离线强化学习微调的技术空白 [6] - 从理论上构建了偏差-方差权衡目标函数,并推导出实时更新缩放因子的二分迭代算法 [6] - 在仿真与真实平台的大量实验中,该方法在多项性能指标上均展现出当前最优水平 [6] 核心算法设计 - 方法核心是构建能量加权损失以融合强化学习信号,并设计自适应机制平衡训练稳定性 [8] - 通过能量引导分布重塑动作轨迹的学习偏好,使模型更关注高强化学习优势的样本 [11][12] - 采用批次采样近似策略将理论损失转化为可高效计算的批次加权损失 [15] 实验设置 - 仿真实验采用LIBERO基准测试平台,涵盖4个核心套件共40个独立任务,评估不同操控能力 [27][29] - 真实世界实验使用UR5机械臂平台,设计3类抓取-放置任务并引入外部物理扰动 [29] - 基准方法包括非流匹配型与流匹配型两大类,以确保对比的全面性与公平性 [27][30] 核心实验结果 - 在多任务学习中,自适应强化流匹配平均成功率达92.1%,较基础流模型提升4.5个百分点,优于其他基准 [32][35] - 在动作扰动实验中,该方法平均成功率为48.2%,较基础流模型提升11.4%,显示出更强鲁棒性 [33][36] - 在少样本学习场景下,该方法平均成功率为36.5%,较基础流模型提升12.2%,证明其高效的数据利用效率 [34][37][45] - 在持续学习实验中,该方法平均负向后迁移指标为4.7,较基础流模型降低38.0%,抗遗忘能力显著提升 [38][39] 方法优势 - 自适应机制降低了对超参数的敏感性,不同超参数下模型成功率波动小于2个百分点,便于工程落地 [40][43] - 二分迭代算法轻量化且高效,仅需10次迭代即可获得近似最优缩放因子,计算成本低 [40][43] - 该方法无需修改模型骨干结构,与现有视觉-语言-动作流模型兼容,工程落地成本低 [25][49]