Visual - Language - Action (VLA) Model
搜索文档
突破VLA模型推理瓶颈!GigaAI、中科院自动化所和清华大学联合推出最新VLA-R1大模型,真实场景执行成功率75%
机器人大讲堂· 2025-11-04 17:07
在具身人工智能领域,视觉 -语言-动作(VLA)模型扮演着核心角色 。 它通过统一感知、语言理解与动作生 成三大能力, 实现跨任务、跨场景的泛化,为机器人与真实环境交互提供关键技术支撑。 近年来, VLA领域涌现出诸多代表性成果:VoxPoser凭借视觉语言模型生成3D值图,实现零样本轨迹规 划;ManipLVM-R1与RoboBrain则整合可供性感知与姿态估计,提升机器人对"物体可执行何种动作"的判断 能力。这些模型通常先通过互联网规模的图像-文本预训练学习跨模态语义,再借助多任务操作数据绑定动作 空间,从而具备迁移到未知对象、组合新命令的能力,泛化性能远超传统模块化管道或固定策略模型。 然而,现有的 VLA模型存在两大挑战。首先, 它们通常缺乏逐步推理 : 模型倾向于直接发出最终动作,而 没有对可供性约束、几何关系或容器选择进行显式推理。这种局限性导致在颜色相似、重复实例或多个候选容 器的情况下出现指令消歧失败。其次, 训练后很少对推理进行系统性的强化 。 当前方法依赖于监督式微调( SFT),很少针对推理质量和执行效率进行奖励优化。即使使用强化学习(RL),奖励设计通常也是单目标 的,难以同时优化区域 ...