Workflow
DROID
icon
搜索文档
探究具身机器人有限泛化能力的本质原因!增强策略依然有效
具身智能之心· 2025-08-12 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Youguang Xing等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 近年来,随着大规模机器人数据集(如Open X-Embodiment/OXE)和高容量模型的发展,通用机器人策略在多种任务上展现出强大能力。然而,这些策略在面对训 练数据分布之外的场景时,泛化能力仍然有限。有趣的是,这种限制不能简单归因于数据量不足——OXE包含超过一百万段轨迹,远超典型视觉语言模型训练数 据集的规模。 研究者发现, 捷径学习 (shortcut learning)——模型依赖任务无关特征而非真正因果关系——是限制泛化能力的关键因素。如Figure 1所示,在SIMPLER环境中, 多个在OXE上训练的通用机器人策略在被要求"将勺子放在毛巾上"时,却一致执行"拿起可乐罐"这一仅在RT-1子数据集中存在的任务。这表明模型学习了与任务 无关的特征(如视角、背景)与动作之间的虚假相 ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息,显著提升了视觉-语言-动作模型在复杂场景中的性能,解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%,比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中,完整版4D-VLA模型平均成功率85.63%,比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令,导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题,在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题:视觉相似观测可能对应完全不同的动作,导致局部不连续[8] 坐标系混乱影响 - 受控实验显示,无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%,而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突,严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标,显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集,包含76,000条轨迹,350小时交互,564个场景[29] - 下游评测使用LIBERO仿真套件,包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU,耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中,4D-VLA成功率73.8%,比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示,加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中,4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链,解决长程任务中的失败问题[48] - 时空提示带来视角不变性,使模型聚焦于物体间真实空间关系[40][41]