空间泛化能力
搜索文档
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力
机器人大讲堂· 2025-10-04 12:05
文章核心观点 - 千寻智能研究人员提出一种名为State-free Policy的视觉运动策略,该策略在输入中完全移除机器人自身状态信息,仅依赖视觉观察,从而显著提升机器人的空间泛化能力 [1][3][10] - 该方法基于两个关键条件:动作在相对末端执行器空间中表示,以及确保视觉输入能够覆盖任务所需的完整观察范围 [11][13] - 实验证明State-free Policy在夹笔、叠衣服、取饮料等任务中展现出强大的空间泛化能力,高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14][17] - 该方法还具备更高的数据利用效率和更快的跨本体泛化优势,在数据量减少时性能下降幅度远小于基于状态的策略 [20][21] State-free Policy技术原理 - 策略输入中完全移除状态信息,仅依赖视觉观察,状态信息包括末端执行器位置、关节角度等自身感知数据 [10][11] - 采用相对末端动作空间,模型预测末端执行器应进行的相对移动而非绝对位置,降低对全局位置信息的依赖 [11] - 通过配备更广阔的视野确保完整的任务观察,相机系统由头顶主摄和腕部广角相机构成,提供末端执行器上下方视野 [13] - 研究发现移除顶置主摄可进一步提高空间泛化能力,仅使用双广角腕部相机的策略在挑战性情景下成功率更高 [22][23] 真机实验成果 - 在夹笔放入笔筒任务中,State-free Policy高度泛化测试成功率从0提升至0.98,水平泛化测试成功率从0提升至0.58 [14] - 在叠衣服任务中,State-free Policy水平泛化能力达到0.834,远高于带状态模型的0.183 [17] - 在全身机器人取饮料任务中,State-free Policy水平泛化能力达到0.784,远高于带状态模型的0.117 [17] - 实验数据收集有严格标准,物体摆放均受严格控制,确保空间泛化能力来自模型本身而非数据多样性 [14] 额外技术优势 - State-free Policy展现出更高数据利用效率,在300、200、100、50条演示数据下均保持较高成功率,而基于状态策略随数据量减少性能迅速下降 [20] - 在跨本体微调中收敛更快,叠衣服任务微调5k步成功率0.700,微调10k步成功率0.967,优于带状态模型的0.333和0.767 [21] - 方法支持更高效跨平台迁移,只需在相似相机配置下适应图像偏移,无需重新对齐状态空间 [21] - 为未来传感器设计提供新思路,双广角腕部相机已能覆盖完整任务观察,顶置相机可能成为性能瓶颈 [22][23]
千寻智能高阳团队最新成果:纯视觉VLA方案从有限数据中学到强大的空间泛化能力
机器之心· 2025-09-29 10:52
研究背景与问题 - 基于模仿学习的视觉运动策略在机器人操作领域被广泛应用,但为实现精确控制,模型通常不仅依赖视觉观察,还会引入机器人自身的状态信息(如末端执行器位置、关节角度等)[11] - 状态信息虽能提供紧凑精确的机器人姿态描述,但易导致模型通过记忆训练轨迹而产生过拟合,严重限制其空间泛化能力[11] - 在获取大量包含位置泛化的真机数据成本极高的当前环境下,空间泛化能力差已成为制约视觉运动策略发展的关键瓶颈[11] State-free Policy 解决方案 - 研究人员提出名为 State-free Policy 的策略,其核心是在视觉运动策略的输入中完全移除状态信息,仅依赖视觉观察[13] - 该方法基于两个关键条件:一是动作在相对末端执行器空间中表示(例如预测末端执行器应进行的相对移动,而不是绝对位置),二是确保视觉输入能覆盖任务所需的完整观察范围[13][15] - 为提供完整的任务观察,相机系统由位于机器人头顶的主摄和腕部相机构成;在双目广角设定下,末端执行器上方和下方各安装一个广角相机,以提供更广泛的视野[15] 真机实验结果:空间泛化能力 - 在夹笔放入笔筒的任务中,State-free Policy 在高度泛化测试中的成功率从 State-based Policy 的 0 提升至 0.98,在水平泛化测试中的成功率从 0 提升至 0.58[17] - 相比于常规相机设定,具有完整任务观察的设定使高度泛化测试成功率从 0.87 提升至 0.98,水平泛化测试成功率从 0.27 提升至 0.58[17] - 在更困难的任务(如叠衣服、全身机器人从冰箱取饮料)中,State-free Policy 的水平泛化能力也明显超过带有状态输入的模型[21] State-free Policy 的额外优势 - State-free Policy 展现出更高的数据利用效率:在夹笔任务中,随着演示数据量从300条减少至50条,基于状态的策略性能迅速下降,而 State-free Policy 始终保持更高的成功率[23] - 在跨本体微调中,State-free Policy 展现出优势:在叠衣服任务中,从双臂Arx5适配到人形双臂机器人并用100条演示数据微调后,无状态输入的策略在微调5k步和10k步时的成功率分别为0.700和0.967,高于有状态输入的策略(0.333和0.767)[24] - 研究人员发现移除顶置相机可进一步提升空间泛化能力:在夹笔任务中,当桌面升至100厘米、笔筒加高一倍或水平移动20厘米时,仅使用双广角腕部相机的策略成功率分别为1.0、0.867和0.800,而带有顶置相机的策略成功率分别为0、0.467和0[27] 研究总结 - State-free Policy 基于相对末端执行器动作空间和完整的任务观察两个条件实现,在不依赖状态输入的情况下,不仅能保持完美的域内性能,还在空间泛化方面取得显著提升[28] - 该策略有效降低了对昂贵真实数据的需求,支持更高效的跨平台适应,并为未来的传感器设计提供了新思路[28]