亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案

文章核心观点 - 亚马逊FAR实验室提出了一套“算法调优-极简奖励设计-大规模并行仿真”三位一体的快速强化学习方案,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [2][3][21] 人形机器人强化学习的效率瓶颈 - 算法样本效率低:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [3] - 高维控制稳定性差:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [4] - 奖励设计冗余繁琐:传统方案依赖20多项奖励条款,增加调参难度且易导致策略过拟合特定场景,降低真实环境适配性 [5] - 域随机化适配难:真实场景中的地形变化、外力扰动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [6] 三位一体快速训练技术体系 - 第一层:算法优化:基于优化后的离线RL算法FastSAC和FastTD3,通过关节限制感知动作边界、双重归一化稳定训练、critic网络优化(采用Q值平均替代裁剪双Q学习,搭配C51分布式critic)以及探索与优化超参调优(如Adam优化器,学习率3e-4)等关键技术,实现高维控制的稳定与高效 [8] - 第二层:极简奖励设计:摒弃冗余奖励条款,设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [10] - 第三层:大规模并行仿真:依托GPU加速仿真框架,通过环境并行化突破训练瓶颈;在Locomotion任务中采用单RTX 4090 GPU支持数千并行环境,在全身运动追踪任务中扩展至4×L40s GPU,并行环境数达16384;仿真中集成了动力学随机化、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等强域随机化;并利用离线RL算法的数据复用机制,避免数据浪费 [10][11] 方案性能验证 - Locomotion任务:在Unitree G1(29自由度)与Booster T1(29自由度)机器人上验证;单RTX 4090 GPU仅需15分钟完成训练,线性速度追踪奖励显著超越PPO;在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健;策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移;FastSAC在复杂场景下略优于FastTD3 [12][17] - 全身运动追踪任务:在舞蹈、搬箱子、推力抵抗等复杂任务中,在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [15][18] - 真实硬件部署:训练后的策略成功部署到真实Unitree G1硬件,无需额外微调即可稳定运行;成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定;能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动 [18][19][21] 方案的局限与未来方向 - 复杂地形适配:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [22] - 动态障碍物避障:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [22] - 算法融合潜力:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [22] - 多机器人适配:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [22] 方案的行业影响 - 核心贡献在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式,通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [21] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [21]

亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案 - Reportify