Workflow
RTR框架
icon
搜索文档
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 09:20
文章核心观点 - 提出一种名为RTR的创新软硬件协同系统,通过“教师”机械臂在现实世界中“手把手”地指导“学生”人形机器人进行在线强化学习,以突破人形机器人真机强化学习的瓶颈 [3][5][7] - RTR系统结合了主动物理辅助硬件与高效算法,实现了在真实环境中对机器人策略进行安全、高效的在线微调,显著提升了数据效率和性能 [7][12][14] - 该方法在行走和“荡秋千”两个任务中得到验证,仅需20分钟的真实世界训练即可将仿真预训练的行走策略速度提升一倍,并在20分钟内从零学会周期性摆荡动作 [14][18] 方法 硬件设置 - 硬件系统由“教师”和“学生”两组机器人组成:教师系统核心是带力-矩传感器的UR5六轴机械臂,通过四根弹性缆绳柔性连接学生机器人肩部;学生系统基于拥有30个自由度的开源ToddlerBot人形机器人 [9] 算法设计 - Sim-to-Real过程分为三阶段:首先在大量域随机化仿真环境中训练接受隐变量z输入的控制策略;其次在仿真中优化一个“通用”初始隐变量作为真实世界微调的起点;最后在真实世界冻结策略网络,仅在线优化低维隐变量z以实现高效微调 [10][12] - 使用FiLM层将环境动力学相关的隐变量融入策略网络,其效果优于直接将环境动态变量拼接到策略网络观测中的方法 [10][17] 实验验证 行走任务 - 消融实验表明,能够主动顺应机器人运动的“柔性”机械臂辅助结合从高辅助过渡到零辅助的课程学习策略,其效果优于固定吊架或固定辅助策略 [14] - RTR提出的“微调隐变量”方法在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法 [14] 荡秋千任务 - 在纯真实环境强化学习任务中,教师机械臂通过实时力反馈感知摆动相位,在适当时机给予帮助或扰动,其效率高于教师仅作为固定吊架的方案 [18] - 整个学习过程从零开始,在20分钟内学会了幅度明显的周期性摆荡动作 [18] 总结与展望 - RTR框架引入了主动力辅助的新范式,其极具扩展性的框架未来可推广至全尺寸人形机器人及其他复杂机器人系统的真实世界强化学习任务中 [16]
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
机器之心· 2025-08-27 08:46
核心观点 - 人形机器人运动控制领域正成为强化学习算法应用的热点 采用仿真到现实范式训练通用控制模型 但该方案牺牲了特定真实环境中的性能上限[2] - 提出创新的RTR系统 使用教师机械臂在现实世界指导学生人形机器人进行在线强化学习 突破真机训练障碍[4][6] - RTR系统通过硬件协同和算法创新实现三阶段高效微调 在行走和荡秋千任务中展现卓越性能 仅需20分钟真实训练即可将仿真预训练速度提升一倍[6][15][19] 技术方案 - 硬件系统由教师UR5六轴机械臂与学生ToddlerBot人形机器人组成 通过四根弹性缆绳柔性连接 配备力传感器和可编程跑步机[8] - 教师机械臂扮演多重角色:安全保护装置 自动重置帮手 训练数据信号源 以及通过课程学习设置进度和施加扰动的智慧教练[5] - 算法采用三阶段Sim-to-Real流程:先在仿真环境训练适应不同物理参数的策略 再优化通用初始隐变量 最后在真实世界仅在线优化低维隐变量z[9][10][11] 性能表现 - 在行走任务中 主动顺应机器人运动的柔性机械臂比固定吊架显著提升学习效果 课程学习策略优于固定辅助策略[15] - 微调隐变量方法在数据效率和最终性能上均优于微调整个策略网络或残差网络基线 真机微调效果强于RMA等在线参数识别基准[6][18] - 在纯真实环境荡秋千任务中 有教师主动参与的课程学习效率高于固定吊架方案 20分钟内学会幅度明显的周期性摆荡动作[19] 应用前景 - RTR框架为解决当前人形机器人真机部署与训练瓶颈提供可行方案 引入主动力辅助新范式[17] - 该框架具有高度扩展性 可通过更强工业机械臂或力传感龙门吊系统推广至全尺寸人形机器人及其他复杂机器人系统[17] - 项目代码已全部开放 被CoRL 2025会议接收 由清华大学和斯坦福大学研究人员共同完成[22]