机器人终于“学会变通”？千寻智能提出State-free Policy纯视觉运动策略，让机器人泛化能力飙升

文章核心观点 - 基于模仿学习的视觉-运动策略存在对机器人本体感知状态过度依赖的关键缺陷，导致其在空间配置变化时泛化能力严重下降 [1] - 千寻智能研究团队提出名为State-free Policy的新型“无状态”运动策略，完全摒弃本体状态信息，仅依靠视觉观察，展现出卓越的空间泛化能力 [2] - 无状态策略通过相对末端执行器动作空间和完整的任务观察两项核心设计原则实现精确鲁棒的控制 [3][5] State-free Policy无状态策略的实现条件 - 采用相对末端执行器动作空间，输出以当前末端为参考系的相对运动指令，而非绝对坐标系指令，赋予策略对位置变化的不变性 [4] - 配备双广角腕部摄像头系统，视野达到120°×120°，确保在任何任务阶段都能获得充足的环境视觉信息 [5] 无状态策略的优势 - 空间泛化能力强大，在桌面高度变化时成功率保持在98%左右，水平移动10厘米时成功率达58%，而传统策略成功率降至0% [10] - 数据效率高，本身不易过拟合轨迹，用更少演示数据即可达到相同效果，降低学习和部署成本 [7] - 具备跨具体化适应潜力，仅依赖视觉输入和相对动作，能更快适应新的机器人型号，实现“一个大脑，多具身体” [7] - 在“盖茶杯盖”、“取瓶子”等任务中，高度泛化平均成功率从0%提升至85%，水平泛化平均成功率从6%提升至64% [12] - 在涉及躯干协调的“全身机器人取瓶子”复杂任务中，成功率从传统策略的11.7%提升至78.4% [12] 机器人传感配置的新发现 - 对于无状态策略，常用的头顶固定摄像头在物体位置变化大时可能弊大于利，因视角剧烈改变会干扰策略 [14] - 仅依靠双广角腕部摄像头，完全移除头顶摄像头，无状态策略在极端泛化场景下表现更加稳定 [14][15] 现实测试表现 - 测试环境变量严格固定，模型展现的泛化能力纯粹源于其自身架构优越性 [8] - State-free Policy在空间泛化方面远超传统State-based策略 [9] - 在叠衣服与机器人取物等复杂任务中表现同样出色 [17]