ToddlerBot人形机器人
搜索文档
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 09:20
文章核心观点 - 提出一种名为RTR的创新软硬件协同系统,通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习,以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法,实现了在真实环境中对机器人策略进行安全、高效的在线微调,显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证,仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍,并在20分钟内从零学会周期性摆荡动作 [14][18] 方法 硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成:教师系统核心是带力-矩传感器的UR5六轴机械臂,通过四根弹性缆绳柔性连接学生机器人肩部;学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段:首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略;其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点;最后在真实世界冻结策略网络,仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络,其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证 行走任务 - 消融实验表明,能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略,其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中,教师机械臂通过实时力反馈感知摆动相位,在适当时机给予帮助或扰动,其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始,在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式,其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]