千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

研究背景与问题 - 基于模仿学习的视觉运动策略在机器人操作领域被广泛应用，但为实现精确控制，模型通常不仅依赖视觉观察，还会引入机器人自身的状态信息（如末端执行器位置、关节角度等）[11] - 状态信息虽能提供紧凑精确的机器人姿态描述，但易导致模型通过记忆训练轨迹而产生过拟合，严重限制其空间泛化能力[11] - 在获取大量包含位置泛化的真机数据成本极高的当前环境下，空间泛化能力差已成为制约视觉运动策略发展的关键瓶颈[11] State-free Policy 解决方案 - 研究人员提出名为 State-free Policy 的策略，其核心是在视觉运动策略的输入中完全移除状态信息，仅依赖视觉观察[13] - 该方法基于两个关键条件：一是动作在相对末端执行器空间中表示（例如预测末端执行器应进行的相对移动，而不是绝对位置），二是确保视觉输入能覆盖任务所需的完整观察范围[13][15] - 为提供完整的任务观察，相机系统由位于机器人头顶的主摄和腕部相机构成；在双目广角设定下，末端执行器上方和下方各安装一个广角相机，以提供更广泛的视野[15] 真机实验结果：空间泛化能力 - 在夹笔放入笔筒的任务中，State-free Policy 在高度泛化测试中的成功率从 State-based Policy 的 0 提升至 0.98，在水平泛化测试中的成功率从 0 提升至 0.58[17] - 相比于常规相机设定，具有完整任务观察的设定使高度泛化测试成功率从 0.87 提升至 0.98，水平泛化测试成功率从 0.27 提升至 0.58[17] - 在更困难的任务（如叠衣服、全身机器人从冰箱取饮料）中，State-free Policy 的水平泛化能力也明显超过带有状态输入的模型[21] State-free Policy 的额外优势 - State-free Policy 展现出更高的数据利用效率：在夹笔任务中，随着演示数据量从300条减少至50条，基于状态的策略性能迅速下降，而 State-free Policy 始终保持更高的成功率[23] - 在跨本体微调中，State-free Policy 展现出优势：在叠衣服任务中，从双臂Arx5适配到人形双臂机器人并用100条演示数据微调后，无状态输入的策略在微调5k步和10k步时的成功率分别为0.700和0.967，高于有状态输入的策略（0.333和0.767）[24] - 研究人员发现移除顶置相机可进一步提升空间泛化能力：在夹笔任务中，当桌面升至100厘米、笔筒加高一倍或水平移动20厘米时，仅使用双广角腕部相机的策略成功率分别为1.0、0.867和0.800，而带有顶置相机的策略成功率分别为0、0.467和0[27] 研究总结 - State-free Policy 基于相对末端执行器动作空间和完整的任务观察两个条件实现，在不依赖状态输入的情况下，不仅能保持完美的域内性能，还在空间泛化方面取得显著提升[28] - 该策略有效降低了对昂贵真实数据的需求，支持更高效的跨平台适应，并为未来的传感器设计提供了新思路[28]