策略学习范式
搜索文档
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题
具身智能之心· 2026-01-19 08:49
文章核心观点 - 提出了一种名为Observation-Centric VLA(OC-VLA)的新范式,旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系,从而实现视觉观察与动作预测在相同空间参考系中的对齐 [3][5] - 该范式被证明能显著提升模型在多种机器人任务中的成功率,并增强其在视角变化和不同硬件配置下的泛化能力与鲁棒性 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型,而机器人控制信号则在机器人基坐标系中定义,这种感知与动作空间的不一致阻碍了策略的有效学习和迁移 [2] - 机器人数据采集视角多样且硬件配置异构,要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作,这在大规模预训练中引入了学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中,从而缓解感知与动作之间的错位问题 [5] - 训练阶段:利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系,并在此坐标系下计算机械臂动作 [6][7] - 推理阶段:将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系,以用于实际控制 [8] - 该方法完全模块化,不依赖特定网络结构,可无缝集成至主流的离散或连续动作生成式策略模型,且不增加额外计算成本 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试,使用包含超过4万条独特轨迹、从30万个随机相机视角渲染的数据集 [13] - 实验结果显示,使用在相机坐标系中定义的动作作为预测目标能显著提高任务成功率,在离散动作空间模型中成功率提升约14% [15] - 具体数据:在连续动作空间下,使用相机坐标系(Camera)预测的平均成功率为53.2%,高于机器人坐标系(Robot)的45.2%;在离散动作空间下,相机坐标系预测的成功率为52.4%,高于机器人坐标系的38.6% [16] 真实世界Franka机械臂实验 - 使用配备三台RealSense D435i相机的Franka机械臂平台,在固定相机、相机位置扰动及零样本相机位置等设置下进行测试 [17][19] - 在固定相机条件下,OC-VLA(Cam Base)的平均成功率为77.5%,高于基线(Robot Base)的66.3% [20] - 在相机位置扰动条件下,OC-VLA的平均成功率为73.8%,高于基线的61.3% [20] - 在包含15个任务的少样本评估中,OC-VLA(Camera Base)的平均成功率为68.0%,优于其他对比方法,如OpenVLA-OFT的63.3%和Robot Base的58.0% [20] - 实验表明OC-VLA不仅提升了任务成功率,也显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中,通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力,使其在视角变化场景中表现更稳健 [23]