Workflow
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力
机器之心·2025-09-29 10:52

研究背景与问题 - 基于模仿学习的视觉运动策略在机器人操作领域被广泛应用,但为实现精确控制,模型通常不仅依赖视觉观察,还会引入机器人自身的状态信息(如末端执行器位置、关节角度等)[11] - 状态信息虽能提供紧凑精确的机器人姿态描述,但易导致模型通过记忆训练轨迹而产生过拟合,严重限制其空间泛化能力[11] - 在获取大量包含位置泛化的真机数据成本极高的当前环境下,空间泛化能力差已成为制约视觉运动策略发展的关键瓶颈[11] State-free Policy 解决方案 - 研究人员提出名为 State-free Policy 的策略,其核心是在视觉运动策略的输入中完全移除状态信息,仅依赖视觉观察[13] - 该方法基于两个关键条件:一是动作在相对末端执行器空间中表示(例如预测末端执行器应进行的相对移动,而不是绝对位置),二是确保视觉输入能覆盖任务所需的完整观察范围[13][15] - 为提供完整的任务观察,相机系统由位于机器人头顶的主摄和腕部相机构成;在双目广角设定下,末端执行器上方和下方各安装一个广角相机,以提供更广泛的视野[15] 真机实验结果:空间泛化能力 - 在夹笔放入笔筒的任务中,State-free Policy 在高度泛化测试中的成功率从 State-based Policy 的 0 提升至 0.98,在水平泛化测试中的成功率从 0 提升至 0.58[17] - 相比于常规相机设定,具有完整任务观察的设定使高度泛化测试成功率从 0.87 提升至 0.98,水平泛化测试成功率从 0.27 提升至 0.58[17] - 在更困难的任务(如叠衣服、全身机器人从冰箱取饮料)中,State-free Policy 的水平泛化能力也明显超过带有状态输入的模型[21] State-free Policy 的额外优势 - State-free Policy 展现出更高的数据利用效率:在夹笔任务中,随着演示数据量从300条减少至50条,基于状态的策略性能迅速下降,而 State-free Policy 始终保持更高的成功率[23] - 在跨本体微调中,State-free Policy 展现出优势:在叠衣服任务中,从双臂Arx5适配到人形双臂机器人并用100条演示数据微调后,无状态输入的策略在微调5k步和10k步时的成功率分别为0.700和0.967,高于有状态输入的策略(0.333和0.767)[24] - 研究人员发现移除顶置相机可进一步提升空间泛化能力:在夹笔任务中,当桌面升至100厘米、笔筒加高一倍或水平移动20厘米时,仅使用双广角腕部相机的策略成功率分别为1.0、0.867和0.800,而带有顶置相机的策略成功率分别为0、0.467和0[27] 研究总结 - State-free Policy 基于相对末端执行器动作空间和完整的任务观察两个条件实现,在不依赖状态输入的情况下,不仅能保持完美的域内性能,还在空间泛化方面取得显著提升[28] - 该策略有效降低了对昂贵真实数据的需求,支持更高效的跨平台适应,并为未来的传感器设计提供了新思路[28]