Workflow
VLA model
icon
搜索文档
从几个代表性的工作分析强化学习和VLA是怎么结合的?挑战有哪些?
具身智能之心· 2025-10-22 11:04
文章核心观点 - 强化学习与视觉-语言-动作模型的结合是提升机器人智能水平的关键技术路径 [2] - 该技术融合能显著提升机器人在复杂、未知环境中的任务成功率、安全性和操作效率 [4][7][10] - 多种创新框架通过不同方式实现RL与VLA的结合,解决了泛化、奖励设计、数据效率等核心挑战 [6][8][12][18][22][27] 技术结合方式与框架 - **VLA模型为强化学习提供方向指导**:VLA模型将视觉和语言信息转化为任务目标,强化学习则根据目标在环境中尝试并优化动作细节 [2][3] - **GRAPE框架通过偏好对齐增强泛化能力**:在轨迹层面对齐VLA,从成功和失败试验中隐式建模奖励,将复杂任务分解为独立阶段 [6] - **VLA-RL框架通过在线优化提升性能**:将操作过程建模为多轮对话,用强化学习在线优化预训练VLA模型,在40项任务中性能接近商用顶级模型 [8][9][10] - **ReWiND框架通过语言指令学习奖励函数**:从少量演示数据学习语言调节的奖励函数,仅通过语言指令就能适应新任务,真实世界性能提升5倍 [12][14] - **ConRFT框架通过一致性策略实现稳健微调**:结合离线与在线微调,在8项真实任务中平均成功率96.3%,比监督学习提升144% [15][18][26] - **Dual-Actor框架通过双智能体协作提升效率**:主智能体保障稳健性能,优化智能体进行潜空间适配,101分钟在线微调实现100%成功率 [20][22] - **VRAG-RL框架优化视觉信息检索推理**:通过视觉感知动作逐步聚焦关键信息,用强化学习优化检索和推理路径 [27][28] 性能提升数据 - GRAPE框架在域内和未见任务上成功率分别提高51.79%和58.20%,碰撞率降低37.44%,轨迹步长缩短11.15% [7] - VLA-RL使OpenVLA-7B模型性能比最强微调基准高出4.5% [10] - ReWiND在仿真中学习效率比基准方法高2倍,真实世界预训练策略提升5倍 [12][14] - ConRFT任务周期缩短1.9倍,在线微调时间仅需45-90分钟 [18][26] - Dual-Actor框架在多机器人训练时效率可提升高达2倍 [22] 技术挑战与解决方案 - **数据效率低**:使用预训练VLA模型作为起点,减少从头学习时间,Dual-Actor框架仅需在线微调即可完成高难度任务 [20][22] - **安全性风险**:引入安全机制和人类干预,ConRFT允许人类通过远程操作实时纠正机器人动作 [23][24][26] - **多模态融合困难**:设计高效多模态编码器,VRAG-RL通过视觉感知动作逐步聚焦关键信息 [27][28]