机器人视觉-语言-动作模型

搜索文档

从坐标混乱到时空对齐！诺亚和复旦联合提出4D-VLA，提升机器人预训练效率和稳健性

具身智能之心· 2025-07-06 19:54

核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息，显著提升了视觉-语言-动作模型在复杂场景中的性能，解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%，比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中，完整版4D-VLA模型平均成功率85.63%，比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令，导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题，在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题：视觉相似观测可能对应完全不同的动作，导致局部不连续[8] 坐标系混乱影响 - 受控实验显示，无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%，而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突，严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标，显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集，包含76,000条轨迹，350小时交互，564个场景[29] - 下游评测使用LIBERO仿真套件，包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU，耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中，4D-VLA成功率73.8%，比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示，加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中，4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链，解决长程任务中的失败问题[48] - 时空提示带来视角不变性，使模型聚焦于物体间真实空间关系[40][41]