Workflow
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心·2025-08-01 08:03

视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]