AAAI 2026最新！OC-VLA：解决感知与动作的错位问题，以观测视角为中心的VLA范式

文章核心观点 - 提出了一种名为Observation-Centric VLA（OC-VLA）的新范式，旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系，从而实现视觉观察与动作预测在相同空间参考系中的对齐 [5] - 实验结果表明，OC-VLA能显著提升任务成功率和模型在不同相机视角下的泛化能力，且该方法模块化，无需增加额外计算成本 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型，而机器人控制信号则在机器人基坐标系中定义，这种空间错位阻碍了策略的有效学习和模型迁移 [2] - 机器人数据采集视角多样且硬件配置异构，要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作，这在大规模预训练中会引入学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中 [5] - 训练阶段：利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系，并在此坐标系下计算机械臂动作 [6][7] - 推理阶段：将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系，用于最终控制 [8] - 该方法完全模块化，可无缝集成至当前主流的离散token式或连续动作生成式策略模型中 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试，使用了一个包含超过4万条独特轨迹、30万个随机相机视角的数据集 [13] - 使用在相机坐标系中定义的动作作为预测目标，能显著提高任务成功率，在离散动作空间模型中成功率提高了约14% [15] - 具体数据：在连续动作空间下，使用机器人坐标系（Robot）预测的平均成功率为45.2%，而使用相机坐标系（Camera）预测的平均成功率为53.2% [16] 真实机器人平台实验 - 使用配备三台相机的Franka机械臂平台进行实验，采集了包含15个任务和8个任务的两组数据集，以评估小样本和视角扰动下的性能 [17][19] - 在固定相机位置设置下，OC-VLA（Cam Base）的平均成功率为77.5%，高于基线方法（Robot Base）的66.3% [20] - 在相机位置扰动设置下，OC-VLA的平均成功率为73.8%，高于基线方法的61.3% [20] - 实验表明OC-VLA显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中，通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力 [23]