Visual - Language - Action (VLA) Model
搜索文档
突破VLA模型推理瓶颈!GigaAI、中科院自动化所和清华大学联合推出最新VLA-R1大模型,真实场景执行成功率75%
机器人大讲堂· 2025-11-04 17:07
具身智能与VLA模型技术背景 - 视觉-语言-动作模型通过统一感知、语言理解与动作生成三大能力,实现跨任务、跨场景的泛化,是机器人与环境交互的核心技术支撑[1] - 代表性模型VoxPoser利用视觉语言模型生成3D值图实现零样本轨迹规划,ManipLVM-R1与RoboBrain整合可供性感知与姿态估计提升动作判断能力[1] - 这些模型通过互联网规模图像-文本预训练学习跨模态语义,再结合多任务操作数据绑定动作空间,具备迁移到未知对象和组合新命令的能力[1] 现有VLA模型的技术挑战 - 模型缺乏逐步推理能力,倾向于直接发出最终动作而非对可供性约束、几何关系进行显式推理,导致在颜色相似、重复实例等场景下指令消歧失败[2] - 训练后很少对推理进行系统性强化,当前方法依赖监督式微调,缺乏针对推理质量和执行效率的多目标奖励优化[2] - 即使使用强化学习,奖励设计通常为单目标,难以同时优化区域对齐和轨迹一致性,降低模型在分布外数据和真实场景下的性能[2] VLA-R1模型创新架构 - VLA-R1是推理增强型VLA模型,通过视觉-语言骨干网络编码多模态信息,再通过动作解码器生成底层控制信号[3] - 模型开发了VLA-CoT-13K数据集,包含1.3万条标注数据,为每个任务提供清晰的思维链,展示从场景分析到行动方案的完整推理步骤[5] - 数据集中的推理步骤与最终的可供性标注和轨迹标注严格对齐,为监督式微调奠定基础[5][7] 基于可验证奖励的强化学习机制 - VLA-R1引入基于可验证奖励的强化学习策略,采用组相对策略优化算法提升训练效率[9] - 区域对齐奖励使用广义交并比指标评估预测操作区域与真实区域的精准重叠,加速模型学习准确定位[12] - 轨迹一致性奖励综合评估轨迹整体形状、运动方向角度变化和各段路径长度比例,确保运动过程自然高效[12] - 输出格式奖励强制模型先输出推理过程再输出具体动作,形成先思考后行动的输出习惯[12] 模型性能评估结果 - 在域内数据测试中,VLA-R1在可供性感知任务上达到36.51的IoU,比最强基线模型提升17.78%;轨迹预测任务综合误差降低17.25%[14] - 仿真环境中,VLA-R1在可供性感知任务平均成功率达55%,轨迹执行任务成功率高达70%,远超对比模型[17] - 真实机器人平台上,VLA-R1在可供性感知上取得62.5%的平均成功率,轨迹执行上达到75%的成功率[19] - 性能对比显示VLA-R1-3B在域内IoU指标达36.51,显著优于ManipLVM-R1-3B的31.00和其他开源模型[15] 技术局限性与未来方向 - 当前研究尚未在更复杂机器人平台如双臂机器人、四足机器狗上进行验证,这类平台动作空间更复杂[20] - 未来研究将扩展机器人平台适配范围,针对双臂、移动机器人设计专属推理规则如双臂协作时的动作时序协调[20] - 将优化奖励机制,引入物理约束奖励如抓取力控制和碰撞避免,提升真实场景中的安全性与鲁棒性[20]